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Indra den Bakker 是 一 位 经 验 丰 富 的 深度 
学 习 工 程 师 和 培训 师 。 他 是 23insights 平 全 
的 创始 人 ， 这 是 NVIDIA 所 属 孵 化 项 目 计 划 的 
一 部 分 , 这 是 一 个 机 器 学 习 构 建 解决 方案 的 
初创 型 计划 ， 可 以 改变 世界 上 重要 的 行业 。 
在 开放 课程 平台 Udacity， 他 指导 了 在 深度 学 
习 和 相关 领域 攻读 微 学 位 ( Nanodegree ) 的 
学 生 ， 他 还 负责 审查 学 生 的 实习 项 目 。|ndra 
拥有 计算 智能 背景 ， 并 在 创建 23insights 平 台 
之 前 作为 IPG Mediabrands 的 品牌 代理 以 及 
Screen6 的 数据 科学 家 若干 年 。 
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本 书 以 和 目 上 而 下 和 目下 而 上 的 方法 来 展示 针对 不 同 领域 实际 问题 的 次 度 学 习 解 决 方案 ， 包 括 图 像 识别 、 上 自然 语 
言 处 理 、 时 间 序 列 预 测 和 机 和 右 人 操纵 等 。 还 讨论 了 采用 诸如 TensorFlow、PyTorch、Kerass 和 CNTK 等 流行 的 深度 学 习 
开源 框架 用 于 实际 问题 的 解决 方案 及 其 优 缺 点 。 本 书 内 容 包 括 : 用 于 次 度 学 习 的 编程 环境 、GPU 计 算 和 云端 解决 方 
R: 前 馈 神 经 网 络 与 卷 积 神经 网 络 ; 循环 与 递归 神经 网 络 ; 强化 学 习 与 生成 对 抗 网 络 ; 深度 学 习 用 于 计算 机 视觉 、 
自然 语言 处 理 、 语 音 识别 、 视 频 分 析 、 时 间 序 列 预 测 、 结 构 化 数据 分 析 以 及 游戏 智能 体 (Agents ) 和 机 器 人 操控 
等 。 最 后 讨论 了 深度 学 习 的 超 参数 选择 和 神经 网 络 的 内 在 结构 以 及 预 训练 模型 的 使 用 技巧 等 。 

本 书 可 作为 从 事 机 可 学 习 、 深 度 学 习 、 人 工 智 能 等 领域 的 工程 技术 人 员 的 参考 书 ， 也 可 用 于 高 等 院 校 相关 专 
业 本 科 生 、 研 究 生 以 及 教师 的 参考 用 书 。 尤 其 适用 于 人 工 智 能 培训 班 、 大 学 生 创 新 创业 实战 训练 、 研 究 生 课题 演 
练 、 程 序 员 实力 提升 等 方面 。 
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译 者 序 | 


得 益 于 大 数据 的 涌现 、 运 算 力 的 提升 和 机 需 学 习 新 算法 (深度 学 习 ) 的 出 现 ， 人 工 
智能 的 浪 漳 正在 遍 卷 全 球 ， 庄 多 词汇 开始 荣 绕 在 我 们 的 耳 边 ， 首 当 其 冲 的 束 是 人 工 智 能 
( Artificial Intelligence )、 机 大 学 习 ( Machine Learning ) MIREJ (Deep Learning )。 人 工 
和 冰 能 是 计算 机 科学 的 一 个 分 文 ， 它 企图 了 解 和 贸 能 的 实质 ， 并 生产 出 一 种 新 的 能 以 人 类 智和 
相似 的 方式 做 出 反应 的 智能 机 各 ， 也 就 是 人 研究、 开发 能 够 用 于 模拟 、 延 伸 和 扩展 人 类 人知 
的 理论 、 方 法 、 技 术 及 应 用 系统 的 一 门 新 的 技术 科学 。 该 领域 的 研究 包括 机 各 人 、 语 言 识 
别 、 图 像 识别 、 上 自然 语言 处 理 和 专家 系统 等 。 机 器 学 习 是 实现 人 工 乔 能 的 主流 方法 ， 最 基 
本 的 做 法 是 使 用 算法 来 解析 数据 从 中 进行 学 习 ， 然 后 对 真实 世界 中 的 事件 做 出 决策 和 预测 。 
与 传统 的 为 解决 特定 任务 、 硬 编 但 的 软件 程序 不 同 ， 机 硕 学 习 是 用 大 量 的 数据 来 “训练 ” 
模型 ， 通 过 各 种 算法 从 数据 中 学 习 如 何 完成 任务 。 而 次 度 学 习 又 是 实现 机 器 学 习 的 核心 技 
术 ， 最 初 的 深度 学 习 是 利用 深度 神经 网 络 来 解决 特征 表达 的 一 种 学 习 过 程 。 深 度 神经 网 络 
可 理解 为 包含 多 个 隐 层 ( 数 十 层 ， 甚 至 上 百 层 ) 的 大 规模 人 工 神经 元 互 连 结 构 。 为 了 提高 
深度 神经 网 络 的 训练 效果 ， 可 对 神经 元 的 连接 方法 和 激活 函数 等 方面 做 出 相应 的 调整 ， 以 
使 模式 识别 或 预测 结果 达到 最 优 。 深 度 学 习 摧 枯 拉 朽 般 地 实现 了 各 种 目标 ， 使 得 似乎 所 有 
的 机 各 辅助 功能 部 变 为 可 能 ， 诸 如 无 人 芍 驶 汽车 、 个 性 化 医疗 保健 、 人 脸 识 别 、 目 然 语言 
处 理 、 网 上 购物 推荐 等 都 是 深度 学 习 的 典型 应 用 场景 。 

本 书 以 目 上 而 下 和 目下 而 上 的 方法 来 展示 针对 不 同 领 域 实际 问题 的 深度 学 习 解 决 方 
采 ， 包 括 图 像 识 别 、 目 然 语 言 处 理 、 时 间 序 列 预 测 和 机 带 人 操纵 等 。 还 讨论 了 采用 诸如 
TensorFlow、PyTorch、Keras 和 CNTK 等 流行 的 深度 学 习 开 源 框架 用 于 实际 问题 的 解决 方 
案 及 其 优 缺点 。 本 书 内 容 包 括 : 用 于 次 度 学 习 的 编程 环境 、GPU 计算 和 云端 解决 方案 ;前 
馈 神 经 网 络 与 卷 积 神经 网 络 ; 循环 与 递归 神经 网 络 ; 强化 学 习 与 生成 对 抗 网 络 ; 深度 学 习 
用 于 计算 机 视觉 、 目 然 语言 处 理 、 语 音 识别 、 视 频 分 析 、 时 间 序 列 了 预测、 结构 化 数据 分 析 
以 及 游戏 智能 体 (Agents ) 和 机 器 人 操控 等 。 最 后 讨论 了 深度 学 习 的 超 参 数 选择 和 神经 网 
络 的 内 在 结构 以 及 预 训练 模型 的 使 用 技巧 等 。 本 书 将 市 读者 进入 深 度 学 习 的 实战 场景 ， 通 
过 使 用 诸如 TensorFlow 与 Keras 等 Python 深度 学 习 流 行 框架 而 进行 卓然 语言 处 理 、 图 像 
识别 、 时 间 序 列 预 测 等 实战 演练 。 本 书 适 用 于 人 工 智能 培训 班 、 大 学 生 创新 创业 实战 训练 、 
人 研究 生 诬 题 演练 、 程 序 员 实力 提升 等 方面 。 本 书 的 出 版 得 益 于 机 械 工 业 出 版 社 的 推 厦 以 及 
周 冠 武 博士 和 研究 生 们 付出 的 辛 芳 ， 在 此 一 并 致谢 。 
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出 更 快 和 更 准确 的 预测 ， 证 明 其 已 经 超越 人 类 的 预测 。 本 书 提 供 了 日 上 而 下 和 目下 而 上 的 
方法 来 展示 深度 学 习 对 不 同 领 域 现实 问题 的 解决 方案 。 这 些 应 用 程序 包括 计算 机 视觉 、 日 
然 语言 处 理 、 时 间 序 列 预测 和 机 天 人。 


本 书 主 要 内 容 

第 1 章 编程 环境 、GPU 计算 、 云 解决 方案 和 深度 学 习 框架 ”主要 包括 与 环境 和 GPU 
计算 相关 的 信息 和 方案 。 对 于 在 不 同 平 台 上 设置 环境 有 问题 的 读者 来 说 ， 这 是 一 个 必 读 内 容 。 

第 2 章 ”前 馈 神经 网 络 ”提供 了 与 前 馈 神 经 网 络 有 关 的 一 系列 方法 ， 并 作为 其 他 章节 
的 基础 。 本 章 的 重点 是 为 不 同 网 络 拓扑 第 见 的 实现 问题 提供 解决 方 采 。 

第 3 章 卷 积 神经 网 络 着 重 介 绍 卷 积 神经 网 络 及 其 在 计算 机 视觉 中 的 应 用 。 它 提供 
了 有 关 CNN 中 使 用 的 技术 和 优化 方法 。 

第 4 章 递归 神经 网 络 提供 了 一 系列 与 递归 神经 网 络 相 关 的 方法 ， 包括 LSTM CK 
短期 记忆 ) 网 络 和 GRU ( 门 控 递 归 神 经 元 )。 本 章 的 重点 是 为 循环 神经 网 络 的 常见 的 实现 问 
题 提 供 解 决 方案 。 

第 5 章 强化 学 习 涵盖 强化 学 习 神 经 网 络 的 各 种 方法 。 本 童 介 绍 了 在 单 智能 体 环 境 
中 深度 强化 学 习 的 概念 。 

第 6 章 ”生成 对 抗 网络 ”提供 了 与 无 监督 学 习 问 题 相关 的 一 系列 方法 ， 这 包括 图 像 生 
成 和 超 分 辨 率 的 生成 对 抗 网 络 。 

第 7 章 计算 机 视觉 包含 图 像 编 码 相 关 的 数据 处 理 方法 ， 如 视频 帧 。 将 提供 使 用 
Python 处 理 图 像 数据 的 经 典 技 术 ， 以 及 用 于 图 像 检 测 、 分 类 和 分 割 的 最 佳 解决 方案 。 

第 8 章 自然 语言 处 理 涵盖 与 文本 数据 处 理 相 关 的 方法 ， 包 括 与 文本 特征 表示 和 处 
理 相 关 的 方法 ,包括 文 字 藤 入 和 文本 数据 存储 。 

第 9 章 语音 识别 和 视频 分 析 涵 凑 与 流 数据 处 理 相 关 的 方法 ， 这 包括 音频 、 视 频 和 
帧 序列 。 

第 10 章 ”时间 序列 和 结构 化 数据 ”提供 与 数字 运算 相关 的 方法 ， 这 包括 序列 和 时 间 序 列 。 

第 11 章 ”游戏 智能 体 和 机 器 人 专注 于 最 先进 的 深度 学 习 人 研究 应 用 ， 这 包括 与 多 智能 
体 环境 ( 模拟 ) 和 目 主 车 辆 中 游戏 智能 体 相 关 的 方法 。 

第 12 章 ”起 参数 选择 、 调 优 和 神经 网 络 学 习 ”阐述 了 神经 网 络 学 习 过 程 涉及 的 方 方 面 
面 。 本 草 的 总 体 目标 是 提供 非常 简洁 和 具体 的 技巧 来 提升 网 络 性 能 。 

第 13 章 网 络 内 部 构造 ”介绍 了 一 个 神经 网 络 的 内 部 构造 ， 这 包括 张 量 分 解 、 权 重 初 
始 化 、 拓 扑 存 储 、 撼 颈 特 征 和 相应 的 能 入 。 

第 14 章 预 训练 模型 涵闸 了 流行 的 次 度 学 习 模 型 ， 如 VGG-16 和 Inception V4。 


学 习 本 书 所 需 的 准备 工作 

本 书 专 注 于 AI( 人 工 智 能 ) 的 Python 实现 ， 而 不 是 Python 本 里 。 本 书 使 用 Python 3 
来 构建 各 种 应 用 程序 ， 专 注 于 如 何以 最 好 的 方式 利用 各 种 Python 库 来 构建 真实 世界 的 应 用 
程序 。 本 关 这 样 的 精神 ,尽力 使 所 有 的 代码 尽 可 能 无 误 易 履 ， 这 将 使 读者 能 够 轻松 理解 代 
码 ， 并 在 不 同 的 场景 中 使 用 它 。 


本 书 读者 对 象 

本 书面 癌 那 些 希 望 使 用 深度 学 习 算 法 来 创建 真实 Python 应 用 程序 的 机 需 学 习 专 业 人 士 。 
对 机 融 学 习 概 念 和 Python JÆ (如 NumPy、SciPy 和 Scikit-learn ) 有 深入 的 理解 。 此 外 ， 还 
需要 具备 线性 代数 和 微 积 分 的 基本 知识 。 


约定 惯例 

在 本 书 中 ， 读 者 将 看 到 许多 区 分 不 同类 型 信息 的 文本 样式 。 下 面 是 这 些 样 式 的 一 些 例 
子 ， 以 及 对 其 含义 的 解释 。 

文本 、 数 据 库 表 名 、 文 件 夹 名 、 文 件 名 、 文 件 扩 展 名 、 路 径 名 、 虚 拟 URL、 用 户 输 入 
和 Twitter 句柄 中 的 代码 学 如 下 所 示 : ”为 提供 虚拟 数据 集 ， 将 使 用 numpy 和 以 下 代码 ”。 

设置 如 下 一 段 代码 : 


import numpy as np 
x_input = np.array([[1,2,3,4,5]]) 
y_input = np.array([[10]]) 


任意 命令 行 的 输入 或 输出 如 下 : 


curl -O 
http: //developer.download.nvidia.com/compute/cuda/repos/ubuntu1604/ 
x86 64/cuda-repo-ubuntu1604 8.0.61-1 amd64.deb 


新 术语 和 关键 词 以 黑体 显示 。 


在 屏幕 上 看 到 的 单词 ， 例 如 菜单 或 对 话 框 ， 就 会 像 这 样 出 现在 文本 中 : 


Python 深度 学 习 实 战 : 
75 个 有 关 神 经 网 络 建 模 、 强 化 学 习 与 迁移 学 习 的 解决 方案 


读者 反馈 

欢迎 读者 反馈 意见 。 让 作者 了 解读 者 对 本 书 的 看 法 ， 豆 欢 什么 或 不 豆 欢 什么 。 读 者 反 
馈 对 于 作者 开发 真正 让 读者 受益 的 主题 非常 重要 。 
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第 1 章 
编程 环境 、GPU 计算 、 
云 解 决 方案 和 深度 学 习 框 架 


本 曹 重 点 介绍 构建 次 度 学 习 框 架 用 到 的 一 些 流 行 技术 方 案 。 首 先 ， 提 供 在 本 地 机 融和 云 
端 搭 建 稳定 而 灵活 的 环境 的 解决 方案 ， 然 后 再 详细 讨论 所 有 流行 的 Python 深度 学 习 框 架 : 

* 3&8 — RE 2] FINIS ; 

。 在 亚马逊 网 络 服 务 (Amazon Web Services, AWS) 上 局 动 实例 ; 

。 在 Google 云 平 台 (GCP) 上 启动 实例 ; 

。 安装 CUDA 和 cuDNN ; 

。 安 装 Anaconda 和 库 文 件 ; 

。 连 接 服 务 估 上 的 Jupyter Notebooks ; 

* 用 TensorFlow 构建 最 先进 的 即 用 模型 ; 

。 有 直观 地 用 Keras 建立 网 络 ; 

。 使 用 PyTorch HJ RNN (循环 神经 网 络 ) 动态 计算 图 ; 

。 用 CNTK 实现 高 性 能 模型 ; 

。 使 用 MXNet 构建 高 效 的 模型 ; 

。 使 用 简单 、 高 效 的 Gluon 编码 定义 网 络 。 


1.1 简介 

深度 学 习 的 最 新 进展 在 一 定 程度 上 可 以 归 因 于 计算 能 力 的 进步 。 计 算 能 力 的 提高 ， 更 
具体 地 说 ， 就 是 使 用 GPU (图 形 加 速 融 ) 来 处 理 数据 ， 它 推动 了 神经 网 络 从 浅 层 到 更 深层 
次 的 飞跃 。 在 本 章 中 ， 将 问 您 展示 如 何 为 本 书 中 使 用 的 不 同 深 上 度 学 习 框 架 搭建 稳定 的 环境 ， 
为 后 面 的 内 容 疯 定 基 础 。 本 书包 含 许多 开源 的 深度 学 习 框 架 ， 供 研究 人 员 和 业内 人 士 使 用 。 
每 个 框架 都 有 其 自 司 的 优点 ， 其 中 大 多 数 是 由 一 些 大 型 科技 公司 提供 的 支持 。 

仔细 按照 第 1 草 中 的 步骤 ， 访 者 应 该 能 够 使 用 本 地 或 基于 云 的 CPU (中 央 处 理 硕 ) 和 
GPU (图 形 处 理 需 ) 来 充分 利用 本 书 中 的 方法 。 本 书 中 ， 使 用 了 Jupyter Notebooks 来 执行 
所 有 的 代码 块 。 这 些 Notebooks 以 每 个 代码 块 的 方式 提供 交互 式 反馈 ， 使 其 非常 值得 品读 。 

本 方法 中 的 下 载 链接 适用 于 支持 NVIDIA GPU 的 Ubuntu 机 器 或 服务 器 。 如 果 需 要 ， 请 
对 应 地 更 改 链接 和 文件 名 。 访 者 可 以 目 由 使 用 任何 其 他 环境 、 包 管理 锅 〈 例 如 Docker RK ) 
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或 版 本 ( 如 果 和 需要 )。 但 是 ， 这 些 操作 可 能 需要 额外 的 步 又 。 


1.2 搭建 一 个 深度 学 习 环 境 
在 开始 训练 深度 学 习 模 型 之 前 ,需要 搭建 深度 学 习 环 境 。 人 尽管 可 以 在 CPU 上 运行 深度 
学 习 模 型 ， 但 运行 更 深 和 更 复杂 的 模型 时 ， 必 须 使 用 GPU， 它 实现 的 速度 可 明显 提高 。 


如 何 去 做 … 

1) 首先 ， 需 要 检查 是 否 有 权 访 问 本 地 计算 机 上 文 持 CUDA 的 NVIDIA GPU， 可 通过 
网 页 https: //developer. nvidia.com/cuda-gpus 查看 概述 。 

2) 如 果 GPU 在 该 页 面 上 列 出 ， 则 可 以 继续 安装 CUDA 和 cuDNN (如果 疝 未 完成 )。 
按照 “安装 CUDA 和 cuDNN” 一 节 中 的 步骤 进行 操作 。 

3) 如 果 无 法 在 本 地 计算 机 上 访问 NVIDIA GPU， 可 以 使 用 云 解决 方案 。 按 照 “启动 云 
解决 方案 ”一 市 中 的 步骤 进行 操作 。 


1.3 在 AWS 上 启动 实例 
AWS 是 最 流行 的 云 解决 方案 。 如 果 无 法 访问 本 地 GPU, 或 者 更 喜欢 使 用 服务 器 ， 则 可 
以 在 AWS 上 设置 EC2 实例 。 在 这 个 方法 中 ， 提 供 了 启动 一 个 支持 GPU 服务 需 的 步骤 。 


做 好 准备 
在 继续 讨论 这 个 方法 之 前 ， 假 设 读者 已 经 在 亚马逊 AWS 上 拥有 一 个 账户 ， 并 上 熟悉 其 
平台 和 附加 的 成 本 。 


如 何 去 做 … 

1) 确保 想 要 工作 的 区 域 可 以 访问 P2 或 G3 实例。 这 些 实 例 分 别 包 括 NVIDIA K80 
GPU 和 NVIDIA Tesla M60 GPU。K80 GPU k M60 GPU 更 快 ， 并 且 比 起 M60 GPU 的 
8GB 内 存 ，K80 GPU 的 12GB 内 存 更 大 。 


r 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 1 


虽然 NVIDIA K80 和 M60 GPU 是 运行 深度 学 习 模 型 的 强大 GPU， 但 这 些 GPU | 
\ O 却 不 是 最 先进 的 技术 。 其 他 更 快 的 GPU 已 经 由 NVIDIA 公司 推出 ， 需 要 一 段 | 
时 间 才 能 加 入 到 云 解决 方案 中 。 然 而 ， 这 些 云 计 算 的 一 大 优势 在 于 ， 可 以 直接 ， 
| 扩展 机 器 中 的 GPU 数量 ， 人 例如， 亚马逊 公司 的 p2.16xlarge 实例 有 16 个 GPU. | 
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2.) 启动 AWS 实例 时 有 两 个 选项 : 选项 1， 从 头 开始 构建 一 切 ; 选项 2， 可 以 使 用 来 自 
AWS 市 场 的 预 配 置 的 亚马逊 机 器 映像 ( AMI )。 如 果 选 择 选 项 2， 将 不 得 不 文 付 额 外 费用 。 
有 关 示 例 ， 请 参阅 https : //Aws.amazon.com/marketplace/pp/BOGVSPXKDX 上 的 AMI. 

3) 亚 蕊 还 公司 提供 最 新 详细 的 步 骂 来 启动 深度 学 习 AMI : https : //aws.amazon.com/ 
blogs/ai/get-started-with-deep- learning-using-the-aws-deep-learning-am1/。 
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4) 如 果 要 从 头 开 始 构建 服务 器 ， 请 启动 P2 或 G3 实例 ， 然 后 按照 安装 CUDA 和 
cuDNN 以 及 安装 Anaconda 和 Libraries 方法 下 的 步骤 进行 操作 。 
5) 一 定 要 确保 在 完成 后 停止 正在 运行 的 实例 ， 以 避免 不 必要 的 成 本 。 
一 个 节省 成 本 的 好 方法 是 使 用 AWS Spot 实例 。 这 使 读者 可 以 对 备用 亚马逊 | 
EC2 计算 容量 进行 标定 。 : 


,i i ee i ee ,i Ea acl epa rrr pex 


àq 


1.4 在 GCP 上 启动 实例 

另 一 个 流行 的 云 提供 商 是 Google 公司 ， 其 GCP 越 来 越 受 欢迎 ， 并 且 拥 有 更 大 的 优势 ， 
其 中 包括 更 新 的 GPU 类 型 NVIDIA P100 以 及 16 GB 的 GPU 内 存 。 在 这 个 方案 中 ， 提 供 了 
启动 一 个 支持 GPU 的 计算 步骤。 


做 好 准备 


在 开始 这 个 方案 之 前 ， 应 该 明了 GCP 及 其 租用 成 本 。 


如 何 去 做 … 

1) 在 首次 使 用 GPU 局 动 计算 实例 之 前 ， 需 要 请 求 增加 GPU 配额 。 详 情 参阅 https : // 
console.cloud.google.com/projectselector/iam-admin/quotas ; 

2) 自 完 ， 选 择 要 使 用 的 项 目 ， 并 相应 地 应 用 测度 和 区 域 滤波 入。GPU 实例 应 该 显示 如 
图 1.1 所 示 。 


Google Cloud Platform $e deeplearningcookbook ~ 


Q NI 


IAM & admin Quotas 四 EDIT QUOTAS 


Quota type Service 


All quotas X All services 


E @ xs 


Google Compute Engine API 
NVIDIA K80 GPUs 


Google Compute Engine API 
NVIDIA P100 GPUs 


Encryption keys 


H8 o 9$ 9. 9 | 


Identity-Aware Proxy 


(s 


Roles 


图 1.1 用 于 增加 GPU 配额 的 GCP 仪表 盘 
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3) 选择 要 更 改 的 配额 ， 单 击 EDIT QUOTAS ， 然 后 按照 步骤 操作 。 

4) 当 指标 增加 时 ， 将 收 到 电子 邮件 确认 。 

5) 之 后 ， 可 以 创建 一 个 文 持 GPU 的 机 需 

6) 启动 机 器 时 ， 如 果 想 使 用 Jupyter Notebook, 请 确保 勾 选 介 许 HTTP 通信 及 其 HTTP 
通信 框 。 


1.5 3 CUDA 和 cuDNN 


如 果 想 利用 NVIDIA GPU 进行 深度 学 习 ， 这 一 部 分 是 必 不 可 少 的 。CUDA 工具 包 专 为 
GPU 加 速 应 用 程序 设计 ， 编 译 需 a Ay 本 了 优化 。 此 外 ，cuDNN JE (CUDA 深度 
神经 网 络 库 ) 是 一 个 加 速 深度 学 习 例 程 的 库 ， 例 如 GPU 上 的 卷 积 、 池 化 和 激活 。 


做 好 准备 

在 开始 使 用 此 方案 之 前 ， 请 确保 已 经 在 https : /developernvidia.com/cudnn 注册 了 
NVIDIA 公司 的 加 dauid ( Accelerated Computing Developer Program )。 只 有 注 
册 后 ， 才 能 访问 安装 cuDNN 库 所 需 的 文件 。 


如 何 去 做 … 


1) 首先 在 终端 中 用 以 下 命令 下 载 NVIDIA ( 如 果 需 要 ， 请 对 应 地 调整 下 载 链接 。 请 确 
保 现 在 使 用 的 是 CUDA 8 而 不 是 CUDA 9 ): 


curl -O 
http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1604/ 
x86 64/cuda-repo-ubuntu1604 8.0.61-1 amd64.deb 


2) 接 下 来 ,解压 文件 并 更 新 软件 包 列 表 中 的 所 有 软件 包 。 之 后 ， 删 除 下 载 文 件 : 


sudo dpkg -i cuda-repo-ubuntu1604 8.0.61-1  amd64.deb 
sudo apt-get update 
rm cuda-repo-ubuntu1604 8.0.61-1 amd64.deb 


3) 现在 ,准备 使 用 以 下 命令 安家 CUDA : 


sudo apt-get install cuda-8-0 


4) 接 下 来 ， 需 要 设置 环境 变量 并 将 它们 添加 到 shell 脚本 .bashrc 中 : 
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echo 'export CUDA HOME-/usr/local/cuda' >> ~/ .bashrc 

echo 'export PATH-$PATH:$CUDA HOME/bin' >> «/.bashrc 

echo 'export LD LIBRARY PATH-$LD LIBRARY PATH:$CUDA HOME/lib64' >> 
^/.bashrc 


5 ) 确保 使 用 以 下 命令 重新 加 载 shell 脚本 : 
source «/.bashrc 
6) 读者 可 以 使 用 终端 中 的 以 下 命令 来 检查 CUDA 8.0 驱动 程序 和 工具 包 是 和 否 已 正确 安装 : 


nvcc --version 
nvidia-smi 


最 后 一 个 命令 的 输出 应 该 看 起 来 如 图 1.2 所 示 。 


indradenbakker@instance-4:~$ nvidia-smi 
TU OCT 5 13:34:51 2017 


NVIDIA-SMI 384.81 Driver Version: 384.81 

pecie morle iret Lu ee qe a Ec d. 
GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | 
Fan Temp Perf  Pwr:Usage/Capl Memory-Usage | GPU-Util Compute M. | 
x ——————————————————————— d 


© Tesla P100-PCIE... Off | 00000000:00:04.0 Off | Q | 


27N / 250W | OMiB / 162706MiB | 0% Default | 


Processes: 
PID Type Process name 


图 1.2 显示 连接 GPU 的 nvidia-smi 输出 示例 


7) 在 这 里 ， 正 确 连接 一 个 16 GB 的 NVIDIAP100 GPU 并 加 以 使 用 。 

8) 现在 准备 安装 cuDNN。 确保 NVIDIA cuDNN 文件 在 机 器 上 可 用 ， 例 如 如 果 需 要 ， 
Mdb Ls dx p SUB AE aS. XP Google 云 计 算 引 擎 (确保 已 经 设置 了 gcloud 并 且 项 目 
和 区 域 设 置 正确 )， 可 以 使 用 以 下 命令 (将 local-directory 和 instance-name FHA A C H 
设置 ): 
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gcloud compute scP local-directory/cudnn-8.0-linux-x64-v6.0.tgz 
instance-name 


9) 首先 解压 文件 ， 然 后 以 root 身份 复制 到 正确 的 目录 : 


cd 

tar xzvf cudnn-8.0-linux-x64-v6.0.tgz 

sudo cp cuda/lib64/* /usr/local/cuda/lib64/ 

sudo cp cuda/include/cudnn.h /usr/local/cuda/include/ 


10) 为 清理 空间 ， 可 以 删除 用 于 安 痛 的 文件 ， 如 下 所 示 : 


rm -rf ~/cuda 
rm cudnn-8.0-linux-x64-vb5.1.tgz 


1.6 ”安装 Anaconda 和 库 文 件 

对 于 Python 用 户 来 说 ， 最 流行 的 环境 管理 员 之 一 是 Anaconda。 使 用 Anaconda 设置 、 
切换 和 删除 环境 非常 简单 。 因 此 ， 可 以 在 同一 台 计 算 机 上 轻松 运行 Python 2 fll Python 3, 
并 根据 需要 在 已 安 狠 的 不 同 版 本 库 之 间 进 行 切 换 。 在 本 书 中 ， 只 关注 Python 3， 并 且 每 个 方 
案 都 可 以 在 一 个 环境 中 运行 : environment-python-deep-learning-cookbook。 


如 何 去 做 … 
1) 可 以 直接 在 计算 机 上 下 载 Anaconda 的 安装 文件 ， 如 下 所 示 ( 对 应 地 调整 Anaconda 
文件 ): 


curl -O 
https://repo.continuum.io/archive/Anaconda3-4.3.1-Linux-x86 64.sh 


2) 接 下 来 ， 运 行 bash 脚本 CEP AREE, THERE CIE ): 


bash Anaconda3-4.3.1-Linux-x86 64.sh 


按照 所 有 提示 ， 当 要 求 将 .bashrc 文件 添加 到 PATH 时 (默认 值 是 “no”)， 选 择 “ 是 ”。 
3) 之 后 ， 重 新 加 载 文 件 : 


source ~/.bashrc 


4) 现在 ， 来 建立 一 个 Anaconda 环境 。 开始 从 GitHub 存档 复制 文件 并 打开 目录 : 
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git clone 
https://github.com/indradenbakker/Python-Deep-Learning-Cookbook-Kit 
.git 

cd Python-Deep-Learning-Cookbook-Kit 


5) 使 用 以 下 命令 创建 环境 : 


conda env create -f environment-deep-learning-cookbook.yml 


6) 这 将 创建 一 个 名 为 environment-deep-learning-cookbook 的 环境 ， 并 安装 包含 在 .yml 
文件 中 的 所 有 库 和 依赖 项 。 本 书 中 使 用 的 所 有 库 都 包含 在 内 ， 例 如 NumPy, OpenCV., 
Jupyter 和 Scikit-learn。 


7) 激活 环境 : 


source activate environment-deep-learning-cookbook 


8) 现在 已 经 准备 好 运行 Python 了。 按照 下 面 的 步骤 安装 Jupyter 和 本 书 中 使 用 的 深度 


学 习 框架 。 


1.7 ”连接 服务 器 上 的 Jupyter Notebooks 


正如 人 简介 中 所 提 到 的 ，Jupyter Notebooks 在 过 去 的 几 年 里 已 经 获得 了 很 多 的 天 
ik, Notebooks 是 运行 代码 块 的 直观 工具 。 在 “安装 Anaconda 和 Libraries” 方 案 中 创建 
Anaconda 环境 时 ， 将 Jupyter 包含 在 函数 库 列表 中 进行 安装 。 


如 何 去 做 … 
1) 如 果 尚 未 安装 Jupyter， 则 可 以 在 服务 如 上 激活 的 Anaconda 环境 中 使 用 以 下 命令 : 


conda install jupyter 


2) Be Po, MARN EAA i o 
3) 一 种 选择 是 使 用 SSH-tunnelling 访问 运行 在 服务 器 上 的 Jupyter Notebooks Mlan, fE 
用 GCP 时 : 


gcloud compute ssh --ssh-flag-"-L 8888 :LocalLhost:8888"  --zone 
"europe-westl1-b" "instance-name" 


该 者 现在 已 经 登录 到 服务 硕 ， 并 且 本 地 计算 机 上 的 端口 8888 将 转发 到 端口 为 8888 的 
IKI o 
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4) 在 继续 前 行 之 前 ， 确 保 激 活 正 确 的 Anaconda 环境 (相应 地 调整 环境 变量 名 称 ): 
source activate environment-deep-learning-cookbook 


5) 可 以 为 Jupyter Notebooks 创建 一 个 专用 目录 : 


mkdir notebooks 
cd notebooks 


6) 现在 可 以 按 如 下 所 示 启 动 Jupyter 环境 : 


jupyter notebook 


这 将 在 服务 硕 上 局 动 Jupyter Notebook. Be FÆ, WP ELI Ad va. IE 3] 
Notebook 后 使 用 提供 的 链接 访问 Notebook, Mlun http : //localhost : 8888/?token-1fa4e9aea9 
9cd7be2b974557eee3d344ca3c99215861834f, 


1.8 FH TensorFlow 构建 最 先进 的 即 用 模型 

TensorFlow 是 目前 最 流行 的 框架 之 一 。TensorFlow 框架 由 Google 公司 在 内 部 创建 、 维 
护 和 使 用 。 这 个 通用 的 开源 框架 可 以 用 于 数据 流 图 的 任何 数值 计算 。 使 用 TensorFlow 的 
最 大 优点 之 一 是 可 以 使 用 相同 的 代码 并 将 其 部 署 在 本 地 CPU、 云 GPU 或 Android 设备 上 。 
TensorFlow 也 可 以 用 来 在 多 个 GPU 和 CPU 上 运行 深度 学 习 模 型 。 


如 何 去 做 … 


1) 首先 ， 将 展示 如 何 从 终 病 安装 TensorFlow ( 确保 调整 链接 到 对 应 的 平台 和 现 有 
Python 适用 的 TensorFlow 版 本 ): 


pip install --ignore-installed --upgrade 
https://storage.googleapis.com/tensorflow/linux/gpu/tensorflow gpu- 
1.3.0-cp35-cp35m-linux x86 64.whl 


这 将 安装 支持 GPU 的 TensorFlow 版 本 和 正确 的 依赖 关系 。 
2) 现在 可 以 将 TensorFlow JEA Python 环境 中 : 


import tensorflow as tf 


3) 为 了 提供 一 个 虚拟 数据 集 ， 将 使 用 numpy 和 下 面 的 代码 : 
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import numpy as np 
x_input = np.arrayir[i1,2,954,51]1J 
y input = np.array([[10]]) 


4) 定义 TensorFlow 模型 时 ， 不 能 将 数据 直接 提供 给 模型 。 应 该 创建 一 个 占 位 符 ， 充 
当 数 据 僻 送 的 入 口 点 : 


x = tf.placeholder(tf.float32, [None, 5]) 
= tf.placeholder(tf.float32, [None, 1]) 


ass 
| 


5) 之 后 ， 可 以 使 用 一 些 变量 对 占 位 符 进 行 操作 ， 例 如 : 


W = tf.Variable(tf.zeros([5, 1])) 
b = tf.Variable(tf.zeros([1])) 
y pred = tf.matmul(x, W)-«b 


6) ZPR, XE DC— T BUX RZA P : 


loss = tf.reduce sum(tf.pow((y-y pred), 2)) 


7) 需要 指定 优化 带 和 想 要 最 小 化 的 变量 : 


train = tf.train.GradientDescentOptimizer(0.0001).minimize (loss) 


8) 在 TensorFlow 中 ， 初 始 化 上 所 有 变量 是 很 重要 的 。 因此 ， 创 建 一 个 名 为 init 的 变量 : 


init = tf.global variables initializer() 


应 该 注意 到 这 个 命令 还 没有 初始 化 变量 ， 这 可 在 运行 会 话 时 完成 。 
9) 接 下 来 ， 创 建 一 个 会 话 ， 并 运行 10 个 周期 的 训练 : 

sess = tf.Session() 

sess.run (init) 

for i in range (10): 


feed_dict = {x: x_input, y: y_input} 
sess.run (train, feed_dict=feed_dict) 


10) 如 果 也 想 节 约 成 本 ， 可 以 通过 添加 如 下 来 完成 : 
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Sess = tf.Session() 
sess.run (init) 


for i in range (10): 
feed_dict = {x: x_input, y: y_input} 
_, loss value = sess.run([train, loss], feed_dict=feed_dict) 
print(loss value) 


11) 如 果 想 要 使 用 多 个 GPU ， 应 该 明确 地 加 以 指定 。 例 如 ， 从 TensorFlow 文档 中 取出 
这 部 分 代码 : 


c= [] 
for d in ['t7850:0"^,. 'Zgousl']13 
with tf.device (d): 
a = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[2, 
213 
b = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape-2[3, 
2]) 
c.append(tf.matmul(a, b)) 
with tf.device('/cpu:0'): 
sum = tf.add n(í(c) 
+ 创建 会 话 ， 设 置 log device placement 为 True 
Sess = tf.Session(config-tf.ConfigProto(log device placement-True)) 
# 操作 运行 


print (sess.run(Sum) ) 


正如 您 所 看 到 的 ， 这 给 在 计算 中 如 何 处 理 和 使 用 哪 种 设备 提供 了 很 大 的 灵活 性 。 
这 只 是 TensorFlow 如 何 工 作 的 简要 介绍 。 在 具体 实现 网 络 时 ， 模 型 实现 的 粒度 | 
级 别 为 用 户 增加 了 很 大 的 灵活 性 。 但 是 ， 如 果 读 者 是 神经 网 络 的 新 用 户 ， 那 可 
能 是 压倒 性 的 问 这 就 是 为 什么 Keras 框架 ( TensorFlow 上 的 一 个 封装 ) 对 | 
于 那些 希望 开始 构建 神经 Sm A PG, 在 | 
' 本 书 中 ， 前 几 ERES 注 Keras， 而 后 面 的 章 将 包括 更 多 使 用 其 他 框架 的 方案 de 


TensorFlow.; 


parere 


1.9 直观 地 用 Keras 建立 网 络 

Keras 是 深度 学 习 工 程 师 熟知 并 使 用 的 次 度 学 习 框 架 。 它 提供 了 对 TensorFlow、CNTK 
和 Theano 框架 的 封装 。 这 个 封闭 禹 可 以 通过 堆 县 不 同类 型 的 层 来 轻松 创建 次 度 学 习 模 型 。 
Keras 的 优点 在 于 代码 的 简单 性 和 可 读 性 。 如 果 想 在 训练 过 程 中 使 用 多 个 GPU， 则 需要 像 使 
用 TensorFlow 一 样 设置 设备 。 
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如 何 去 做 … 


1) 首先 在 本 地 Anaconda 环境 中 安装 Keras， 如 下 所 示 : 


conda install -c conda-forge keras 


应 确保 深度 学 习 环 境 在 执行 此 命令 之 前 已 被 激活 。 
2) 接 下 来 ,将 Keras 库 导 入 到 Python 环境 中 : 


from keras.models import Sequential 
from keras.layers import Dense 


该 命令 输出 Keras 所 使 用 的 后 端 。 默 认 情 况 下 ， 使 用 的 是 TensorFlow 框 架 ， 如 图 1.3 所 示 。 


In [1]: from keras.models import Sequential 
from keras.layers import Dense 


Using TensorFlow backend. 


图 1.3 Keras 输出 显示 使 用 的 后 端 


3) 为 了 提供 一 个 虚拟 数据 集 ， 将 使 用 numpy 和 下 面 的 代码 : 


import numpy as np 
x input = np.array([[1,2,3,4,5]]1]) 
y. input = np.array([[101]1) 


4) 使 用 顺序 模式 时 ， 在 Keras "FIRE LER RB]. fEXCT- DIT B. [RHI—T 
具有 32 个 神经 元 的 隐 层 和 一 个 神经 元 的 输出 层 : 


model = Sequential() 
model.add(Dense(units-32, input dim-x input.shape[1])) 
model.add(Dense(units-1)) 


5) 接 下 来 ,需要 对 模型 进行 编译 。 在 编译 时 ， 可 以 配置 不 同 的 设置 ， 如 损失 函数 、 优 
化 融和 测度 标准 : 


model.compile(loss-'mse', 
optimizer-'sgd', 
metrics-['accuracy!']) 


6) 在 Keras 中 ， 可 以 轻松 输出 显示 模型 的 摘要 。 它 还 将 显示 所 定义 模型 中 的 参数 数量 : 


model .summary () 


Python 深度 学 习 实 战 : 
75 个 有 关 神 经 网 络 建 模 、 强 化 学 习 与 迁移 学 习 的 解决 方案 


在 图 1.4 中 ， 可 以 看 到 所 构建 模型 的 摘要 。 


In [5]: model.summary() 


Layer (type) 


dense 1 (Dense) (None, 32) 


dense 2 (Dense) (None, 1) 


Total params: 225 
Trainable params: 225 
Non-trainable params: 0 


图 1.4 Keras 模型 摘要 示例 


7) 使 用 一 个 命令 直接 训练 模型 ， 同 时 将 结 采 保存 到 一 个 名 为 history 的 变量 


history = model.fit(x input, y input, epochs-10, batch size-32) 
8) o TX, TUS RI EU ZG f : 


pred = model.predict(x input, batch, size-1289) 


——^L——————AA^AL————^—————— R————————————————————————————————————————————————————————————————————————————— 


在 对 Keras 的 简短 介绍 中 ， 已 经 证 明了 在 几 行 代码 中 实现 神经 网 络 是 很 容 罗 的 。， 
但 是 ， 不 要 把 简单 与 能 力 混为一谈 。 比 起 上 面 提 到 的 内 容 ，Keras 框架 提供 了 C 
更 多 的 东西 ， 如 果 需 要 ， 可 以 把 模型 调整 到 一 个 粒度 级 别 。 | 


[oc pc ee Dc UE PEEL 


1.10 “使 用 PyTorch 的 RNN 动态 计算 图 

PyTorch 是 Python 深度 学 习 框 架 ， 近 来 获得 了 很 多 的 关注 。PyTorch 是 使 用 Lua 的 
Torch 的 Python 实现 。 它 由 Facebook 公司 文 择 ， 并 且 由 于 GPU 加 速 张 量 计算 ， 其 速度 很 
快 。 使 用 PyTorch 优 于 其 他 框 染 的 一 个 巨大 好 处 是 ， 图 形 是 动态 创建 的 ， 而 不 是 静态 创建 
的 。 这 意味 看 网 络 是 动态 的 ， 可 以 调整 网 络 ， 而 不 必 重 新 开始 。 因 此 ， 对 于 每 个 示例 而 言 ， 
即时 创建 的 图 形 可 能 会 有 所 不 同 。PyTorch 文 持 多 个 GPU， 可 以 手动 设置 在 哪个 设备 (CPU 
或 GPU ) 上 执行 哪些 运算 。 


如 何 去 做 … 


1) 首先 ， 在 Anaconda 环境 中 安装 PyTorch, Al PER: 


conda install pytorch torchvision cuda80 -c soumith 


如 果 想 在 男 一 个 平台 上 安装 PyTorch， 可 以 查看 一 下 PyTorch 的 网 站 以 获取 清晰 的 指导 : 
http : /pytorch.org/。 
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2 ) 将 PyTorch 导入 到 Python 环境 中 : 


import torch 


3) 虽然 Keras 为 构建 神经 网 络 提供 了 更 高 层次 的 抽象 ， 但 是 PyTorch 也 内 置 了 这 个 特 
性 。 这 意味 着 可 以 使 用 更 高 级 别 的 构建 块 构建 ， 甚 至 可 以 手动 构建 前 向 和 后 癌 过 程 。 在 本 
例 中 ， 将 使 用 更 高 层次 的 抽象 。 首 先 ， 需 要 设 定 随 机 训练 数据 的 大 小 : 


batch_size = 3 
input shape = 
output shape = 10 


2 
5 


4) 为 了 启动 GPU， 将 使 用 如 下 张 量 : 


torch.set default, tensor type('torch.cuda.FloatTensor!') 


这 确保 所 有 的 计算 将 使 用 附加 的 GPU。 
5) 可 以 用 它 来 生成 随机 训练 数据 : 


from torch.autograd import Variable 

X — Variable(torch.randn(batch size, input shape)) 
y — Variable(torch.randn(batch size, output shape), 
requires grad-False) 


6) 使 用 一 个 简单 的 神经 网 络 ， 其 中 一 个 有 32 个 神经 元 的 隐 层 和 一 个 神经 元 的 输出 层 : 


model = torch.nn.Sequential( 
torch.nn.Linear(input, shape, 32), 
torch.nn.Linear(32, output shape), 
) .cuda () 


使 用 .cuda0 扩展 来 确保 模型 在 GPU 上 运行 。 
7) FÆ, $E X. MSE 损失 函数 : 


loss function = torch.nn.MSELoss() 


8) 现在 准备 开始 使 用 下 面 的 代码 来 训练 模型 ， 共 迭代 10 次 : 


Python 深度 学 习 实 战 : 
75 个 有 关 神 经 网 络 建 模 、 强 化 学 习 与 迁移 学 习 的 解决 方案 


learning_rate = 0.001 
for i in range(10): 
y. pred = model (x) 


loss = loss function(y pred, y) 
print (loss.data[0]) 
+ FE 


model.zero_grad() 
loss.backward() 


# 更 新 权 值 
for param in model.parameters(): 
param.data -= learning rate * param.grad.data 


r 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 > 


PyTorch 框架 为 实现 简单 的 神经 网 络 和 更 复杂 的 深度 学 习 模 型 提供 了 很 大 的 自 | 
由 度 。 在 这 个 介绍 中 没有 演示 的 是 在 PyTorch 中 使 用 动态 图 。 这 是 一 个 非常 强 ; 
| 大 的 功能 ， 本 书 将 在 其 他 内 容 中 进行 展示 。 
1.11 FH CNTK 实现 高 性 能 模型 

微软 公司 不 久 前 推出 了 开源 次 度 学 习 框 织 : 微软 认 知 工具 包 ， 这 个 框架 称 为 CNTK。 
由 于 性 能 的 原因 ，CNTK 是 用 C ++ 语言 编写 的 ， 并 且 有 一 个 Python API。CNTK 文 持 单 
GPU 和 多 GPU 的 使 用 。 


如 何 去 做 … 
1) 首先 ， 用 pip 安装 CNTK， 如 下 所 示 : 


pip install 
https://cntk.ai/PythonWheel/GPU/cntk-2.2-cp35-cp35m-linux x86 64.wh 
l 


AL GE, up EE NA dX x fr (S b] https : //docs.microsoft.com/en-us/ cognitive-toolkit/ 
Setup-Linux-Python?tabs-centkpy22).; 
2) X CNTK 后 ， 可 以 将 它 导 人 到 Python 环境 中 : 


import cntk 
3 ) 创建 一 些 可 以 用 来 训练 的 简单 虚拟 数据 : 


import numpy as np 
x input = np.array([Il1,2,3,4,5]], np.float32) 
v.ainpubr e np.array(L[i0]l, np.tfloat22) 
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àq 


4) 接 下 来 ,需要 为 输入 数据 定义 占 位 符 : 


cntk.input variable(5, np.float32) 
cntk.input variable(1, np.float32) 


«e 
Io ll 


5) 使 用 CNTK, "UA EBORE TE. TE— i E EEE T eA 32 个 输入 的 
密集 层 ， 并 市 有 1 个 输出 神经 元 : 


from cntk.layers import Dense, Sequential 
model = Sequential([Dense(32), 
Dense(1)]) (X) 


6) BE POE, XE BUR KZN: 


loss = cntk.squared error(model, y) 
7) WE, iss HUI aso oe WE RUF : 


learning rate = 0.001 
trainer = cntk.Trainer(model, (loss), 
cntk.adagrad(model.parameters, learning rate)) 


8) 最 后 ， 训 练 醒 型 ， 如 下 所 未 : 


for epoch in range(10): 
trainer.train minibatch([íX: x input, y: y input]) 


站 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 


正如 在 此 介绍 中 已 经 展示 的 那样 ， 用 适当 的 高 级 封装 来 建立 CNTK 模型 是 很 简 : 
单 的 。 但 是 ， 就 像 TensorFlow 和 PyTorch 一 样 ， 可 以 选择 更 细 化 的 级 别 来 实现 | 
模型 ， 这 给 了 读者 很 大 的 自由 度 。 


二 


1.12 ”使 用 MXNet 构建 高 效 的 模型 

MXNet 深度 学 习 框 架 人 允许 使 用 Python 构建 高 效 的 次 度 学 习 模 型 。 除 了 Python, BA 
VFfEH] R, Scala 和 Julia 等 流行 语言 构建 模型 。 亚 蕊 还 和 百度 等 公司 都 支持 Apache MXNet。 
MXNet 已 被 证 明 是 快速 的 基准 框架 之 一 ， 它 支持 对 单 GPU 和 多 GPU 的 使 用 。 通 过 使 用 们 
单 评 估 ，MXNet 能 够 并 行 自动 执行 操作 。 此 外 ，MXNet 框架 使 用 符号 界面 ， 称 为 Symbol, 
这 简化 了 构建 神经 网 络 体系 结构 。 


Python 深度 学 习 实 战 : 
75 个 有 关 神 经 网 络 建 模 、 强 化 学 习 与 迁移 学 习 的 解决 方案 


如 何 去 做 … 


1) 在 支持 GPU 的 Ubuntu 上 安装 MXNet， 可 以 在 终 问 中 使 用 以 下 命令 


pip install mxnet-cu80-2-20.11.0 


对 于 其 他 平台 和 非 GPU 支持 ， 请 查看 https : //mxnet. incubator.apache.org/get started/ 
install.html。 


2) BE F3, TE Python 环境 中 导入 mxnet: 


import mxnet as mx 


3) 创建 一 些 分 配给 GPU 和 CPU 的 简单 虚拟 数据 : 


import numpy as np 
x input = mx.nd.empty((1, 5), mx.gpu()) 
x inpuLls] —eonp.arrayt|lbl2,9,92.91]; Hp.rlost22) 


y input = mx.nd.empty((1, 5), mx.cpu()) 
v inpagtlt] = np.arraytlll0, 15; 20; 22.9, 2e2oll, npstflosbp32] 


4) 可 以 很 容 多 地 复制 和 调整 数据 。 在 可 能 的 情况 下 ，MXNet 将 目 动 执行 并 行 操 作 : 


x l1nput 
w input - x input 

z input = x input.copyto (mx.cpu()) 
x Input + 
w_input / 
z input * 


Io gd 
N N || 


5) 输出 显示 如 下 : 


print(x input.asnumpy ()) 
print (w input.asnumpy ()) 
printí(z input.asnumpy()) 


6) MRE R AIEEE, WIZAGSIt — T 35188 : 


batch size = 1 
train iter = mx.io.NDArrayIter(x input, y input, batch size, 
shuffle-True, data name-'input', label name-2'target') 


7) 接 下 来 ， 可 以 为 模型 创建 符号 : 
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X = mx.sym.Variable('input') 

Y = mx.symbol.Variable('target') 

fcil = mx.sym.FullyConnected(data-X, name-'fc1', num hidden = 5) 
lin reg = mx.sym.LinearRegressionOutput (data-fc1, label-Y, 
name-"lin, reg") 


8) 在 开始 训练 之 前 ， 需 要 定义 模型 : 


model = mx.mod.Module( 


symbol = lin reg, 
data, names-['input'], 
label names = ['target'!] 


9 ) 开始 训练 : 


model.fit(train iter, 
optimizer, params-[('learning rate':0.01, 'momentum': 0.9), 
num epoch-2100, 
batch, end callback = mx.callback.Speedometer (batch size, 2)) 


10) 使 用 训练 好 的 模型 进行 预测 : 


model.predict (train_iter) .asnumpy () 


nnn 


这 里 简短 地 介绍 了 MXNet 框架 。 在 这 个 介绍 中 ， 演 示 了 如 何 轻松 地 将 变量 和 : 
计算 分 配给 CPU 或 GPU 以 及 如 何 使 用 Symbol 接口 。 人 但是， 还 有 很 多 需要 探 
索 的 内 容 ，MXNet 是 构建 灵活 、 高 效 的 深度 学 习 模 型 的 强大 框架 。 


bb 


1.13 ”使 用 简单 、 高 效 的 Gluon 编码 定义 网 络 


Gluon 是 使 用 广泛 的 次 度 学 习 框架 的 最 新 成 员 。Gluon 最 近 由 AWS 和 微软 公司 推出 ， 


提供 了 简单、 易于 理解 的 代码 ， 而 不 会 损失 性 能 。Gluon 已 经 包含 在 MXNet 的 最 新 版 本 中 ， 
将 在 未 来 版 本 的 CNTK. ( 和 其 他 框架 ) 中 提供 。 就 像 Keras 一 样 ，Gluon ERMER E 
习 框 架 的 一 个 封装 。Keras 和 Gluon 的 主要 区 别 在 于 ，Gluon 首先 将 重点 放 在 命令 框架 上 。 


如 何 去 做 … 


1 ) Gluon 包含 在 最 新 版 本 的 MXNet 中 ( 按照 使 用 MXNet 构建 高 效 模型 的 步 又 来 安装 


MXNet )。 


2 ) 安装 完成 后 ， 可 以 直接 输入 gluon 如 下 : 


from mxnet import gluon 


b 
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3) 接 下 来 ， 创 建 一 些 虚 拟 数 据 。 为 此 ， 需 要 将 数据 载 入 MXNet 的 NDArray 或 Symbol 中 : 


import mxnet as mx 

import numpy as np 

x input - mx.nd.empty((1, 5), mx.gpu()) 

x inpubL[r] = np.array([li1,2,3,4,5]], np.rloat32) 


y input = mx.nd.empty((1, 5), mx.gpu()) 
v.input[*] = np.array(I[Ii0, 15, 20, 22.5, 25]]s, np.tloat32) 


4) 使 用 Gluon, i8 JI eR vr p ES JR Es fa] tf. : 


net = gluon.nn.Sequential () 

with net.name scope(): 
net.add(gluon.nn.Dense(16, activation-"relu")) 
net.add(gluon.nn.Dense(len(y input))) 


5) 接 下 来 ， 初 始 化 参数 ， 将 参数 存储 在 GPU E, WI PB: 


net.collect, params().initialize(mx.init.Normal(), ctx-^mx.gpu()) 
6) FH Pie BST RE EAR RRAN : 


Softmax cross entropy = gluon.loss.SoftmaxCrossEntropyLoss.() 
trainer = gluon.Trainer(net.collect params(), 'adam', 
[('learning rate': .1)) 


7) 开始 训练 或 建 模 : 


n epochs = 10 


for e in range (n epochs): 
for i in range(len(x input)): 

input = x input[i] 

target = y input[i] 

with mx.autograd.record(): 
output = net (input) 
loss = softmax cross entropy(output, target) 
loss.backward() 

trainer.step(input.shape[0]) 


和 一人 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 


这 里 简短 演示 了 如 何 使 用 Gluon 实现 神经 网 络 架 构 。Gluon 是 一 个 功能 强大 的 ， 
扩展 应 用 ， 可 以 用 简捷 的 代码 来 实现 深度 学 习 架 构 。 同 时 ， 使 用 Gluon 几乎 没 ， 


有 性 能 损失 。 


和 
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在 本 草 中 ， 将 实现 前 馈 神经 网 络 ( FNN ) 并 讨论 次 度 学 习 的 基石 : 
。 SERER AIAT ; 

。 实现 一 个 单 层 神经 网 络 ; 

。 构建 一 个 多 层 神 经 网 络 ; 

。 开始 使 用 激活 函数 s 

。 关于 隐 层 和 隐 层 神经 元 的 实验 ; 
e 实现 一 个 目 动 编码 全 ; 

。 调整 损失 函数 s 

。 测试 不 同 的 优化 大 ; 

。 使 用 正则 化 技术 提高 泛 化 能 

。 添加 Dropout 以 防止 过 拟 合 。 


2.1 简介 

本 章 的 重点 是 为 FNN 和 其 他 网 络 拓扑 的 常见 实现 问题 提供 解决 方案 。 本 章 讨论 的 技术 
也 适用 于 后 续 内 容 。 

FNN 是 信息 只 向 一 个 方向 移动 而 不 循环 的 网 络 ( 正如 在 第 4 章 ”递归 神经 网 络 中 看 
到 的 ), FNN 主要 用 于 监督 学 习 ， 其 中 数据 不 是 顺序 或 时 间 依赖 的 ， 例 如 用 于 一 般 分 类 和 回 
归 任 务 。 首 先 介绍 感知 器 ， 然 后 介绍 如 何 使 用 NumPy 实现 感知 器 。 感 知 器 展现 了 单一 神经 
元 的 工作 机 制 。 接 下 来 ， 通 过 增加 神经 元 数量 来 增加 复杂 性 ， 并 引入 单 层 和 多 层 神经 网 络 。 
大 数量 神经 元 和 多 层次 网 络 ， 增 加 了 结构 的 深度 ， 也 符合 深度 学 习 这 个 名 字 。 


2.2 EARRAS 

自 完 ， 和 需要 了 解 神 经 网 络 的 基础 知识 。 神 经 网 络 由 一 层 或 多 层 神 经 元 组 成 ， 以 人 脑 中 
的 生物 神经 元 命名 。 通 过 实现 感知 融 来 演示 单个 神经 元 的 工作 机 理 。 在 感知 角 中 ， 单 个 神 
经 元 执行 所 有 的 计算 ， 之 后 扩大 神经 元 的 数量 来 创建 深度 神经 网 络 ， 如 图 2.1 所 示 。 
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图 2.1 Rd ELE 


感知 天 可 以 有 多 个 输入 。 在 这 些 输入 上 ， 和 神经 元 执行 计算 并 输出 单个 值 ， 例 如 对 两 个 
类 别 进行 分 类 的 二 进 制 值 。 该 神经 元 执行 的 计算 是 输入 和 权重 的 简单 矩阵 乘法 。 将 得 到 的 
值 加 起 来 并 添加 一 个 仿 置 ， 如 下 : 


> Wi Xi 十 用 
i 


这 些 计算 可 以 很 容易 地 扩展 到 高 维 输入 。 激 活 函 数 o (x) BRE TE IRL PER UPS i B) c 
终 和 输出: 


1x « 0.5 
0x 之 0.5 


权重 和 偏 置 随机 初始 化 。 在 每 个 周期 ( 对 训练 数据 迭代 ) 之 后 ， 基 于 网 络 输出 与 期 望 
输出 之 间 的 误差 值 乘 以 学 习 率 来 更 新 权重 。 因 此 ， 网 络 训练 将 按 新 权重 施加 到 训练 数据 上 
( 反 向 传播 阶段 )， 并 且 输 出 的 精度 会 提高 。 感 知 需 是 在 训练 数据 上 优化 的 线性 组 合 。 作 为 
一 个 激活 子 数 ， 将 使 用 一 个 单位 阶 暑 函数 : 如 果 输 出 超过 一 定 的 阔 值 将 被 激活 〈 因 此 ,成 
为 一 个 0 与 1 的 二 进 制 分 类 需 )。 如 果 这 些 类 是 线性 可 分 ， 感 知 天 就 能 够 以 100% 的 精度 对 
模式 进行 分 类 。 在 下 一 个 方案 中 ， 将 同 庶 者 展示 如 何 用 NumPy 实现 感知 妖 。 


如 何 去 做 … 
1) 导入 函数 库 和 数据 集 ， 如 下 : 


eG) =] 
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import numpy as np 

from sklearn.model selection import train test split 
import matplotlib.pyplot as plt 

# 使 用 Iris 植物 数据 库 


from sklearn.datasets import load iris 
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2) HH, 将 导入 的 数据 进行 分 组 ， 如 下 所 示 : 


# Iris 数 据 库 中 的 前 两 类 线性 可 分 (Iris-Setosa fil Iris-Versicolour) 
iris = load iris() 

idxs = np.where(iris.target«2) 

X = iris.data[idxs] 

y = iris.target[idxs] 


3) 用 下 面 的 代码 片断 绘制 四 个 变量 中 两 个 变量 的 数据 展示 : 


plt.scatter (X[Y==0] [:,0],X[Y==0] [:,2], color='green', label-'Iris- 


Setosa') 

plt.scatter(X[Y-2-21][:,0],X[Y-221][:,2], color-"'red', label-^'Iris- 
Versicolour') 

plt.title('Iris Plants Database!) 

plt.xlabel('sepal length in cm') 

plt.ylabel('sepal width in cm!) 

pit.legend() 

plt.show() 


在 图 2.2 中 ， 绘 制 了 两 个 类 的 分 布 : 


Iris 植物 数据 库 


Æ Iris-Setosa 


Æ  Iris-Verslcolour 


z 
2 
要 
i 
d 


5.5 6.0 
25 Hr B£/cm 


图 2.2 Iris 植物 数据 库 ( 两 类 ) 
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4) 为 了 验证 绪 末 ， 将 数据 分 成 如 下 的 训练 集 和 测试 集 : 


X train, X val, y train, y val = train test split(X, y, 
test size-0.2, random state-SEED) 


5) 接 下 来 ， 初 始 化 感知 希 的 权重 和 俩 置 : 


weights = np.random.normal(í(size-X train.shape[1]) 
bias = 1 


6) 在 训练 之 前 ， 需 要 定义 超 参数 : 


learning rate = 0.1 
n epochs = 15 


7) 现在 ， 开 始 用 for 循环 来 训练 感知 器 : 


del w = np.zeros(weights.shape) 
hist loss = [] 
hist accuracy = [] 


for i in range (n epochs): 
# 使 用 阶 跃 函数 ,大 输出 > 0.5, 预测 结果 为 1， 否则 为 0 
output = np.where((X train.dot (weights)+bias)>0.5, 1, 0) 


# 计算 MSE 
error = np.mean((y train-output)**2) 


# SONUS f 


weights-- learning rate * np.dot((output-y train), X train) 
bias += learning rate * np.sum(np.dot((output-y train), 
X train)) 
# 计算 MSE 
loss = np.mean((output - y train) ** 2) 


hist loss.append(loss) 
# 确定 验证 精度 
output val = np.where(X_val.dot (weights)>0.5, 1, 0) 


accuracy = np.mean(í(np.where(y val--output val, 1, 0)) 
hist accuracy.append (accuracy) 


8) 保存 训练 损失 值 和 验证 精度 ， 以 便 可 以 绘图 呈现 : 
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fig = plt.figure (figsize=(8, 4)) 
a = fig.add subplot(1,2,1) 
imgplot = plt.plot(hist loss) 
plt.xlabel('epochs!) 

a.set title('Training loss!) 


a-fig.add subplot (1,2,2) 

imgplot = plt.plot(hist accuracy) 
plt.xlabel('epochs"') 

a.set title('Validation Accuracy") 
plt.show() 


在 图 2.3 中 ， 显 示 了 由 此 产生 的 训练 损失 值 和 验证 精度 。 


训练 损失 值 验证 精度 


图 2.3 ”训练 损失 值 和 验证 精度 


2.3 ”实现 一 个 单 层 神经 网 络 

现在 可 以 转 回 神经 网 络 ， 从 实现 最 简单 的 神经 网 络 形式 开始 : 单 层 神经 网 络 。 它 与 感 
知 妖 的 区 别 在 于 计算 过 程 是 由 多 个 神经 元 完成 的 ， 因 此 构成 一 个 网 络 。 正 如 所 期 望 的 那样 ， 
增加 更 多 的 神经 元 会 增加 可 解决 问题 的 难度 。 这 些 神经 元 分 别 执行 它们 的 计算 并 堆 羞 在 一 
个 层 中 ， 这 个 层 称 为 隐 层 。 所 以 ， 在 该 层 堆 闭 的 神经 元 称 为 隐 层 神经 元 。 现 在 ， 只 考虑 单 
个 隐 层 。 输 出 层 表现 为 感知 项。 这 一 次 ， 作 为 输入 ， 在 隐 层 中 的 神经 元 为 隐 层 神经 元 而 不 
是 输入 变量 ， 如 图 2.4 所 示 。 

在 感知 右 的 实现 中 ,使 用 了 单位 阶 暑 函数 来 确定 类 别 。 在 下 一 个 方案 中 ， 将 对 隐 层 神 
经 元 和 输出 函数 使 用 一 个 非 线 性 激活 归 数 sigmoido Mit HJERTE ROE RAUR E ITERAR, 
网 络 也 将 能 够 发 现 非 线 性 模式 。 稍 后 在 “激活 子 数 ”一 市 中 将 进一步 介绍 。 在 后 问 传 递 中 ， 
使 用 sigmoid 咀 数 的 导数 来 更 新 权重 。 

在 下 面 的 方案 中 ， 将 用 NumPy 对 两 个 非 线 性 可 分 的 类 进行 分 类 。 
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图 2.4 具有 两 个 输入 变量 、n 个 隐 层 神经 元 和 一 个 输出 神经 元 的 单 层 神经 网 络 


如 何 去 做 … 
1 ) 导入 函数 库 和 数据 集 : 


import numpy as np 

from sklearn.model selection import train test split 
import matplotlib.pyplot as plt 

# 使 用 scikit-learn 中 的 make_circles rZ 

from sklearn.datasets import make circles 
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2) 首先， 创建 训练 数据 : 


# 创建 内 圈 及 外 圈 

X, y = make circles(í(n samples-400, factor-.3, noise-.05, 
random state-2017) 

outer = y == 

inner 


I 

K 

| 
~ 


3 ) 绘制 数据 的 分 布 来 显示 两 个 类 : 


plt.title("Two Circles") 
plt.plot(X[outer, 0], X[outer, 1], "ro") 
plt.plot(X[inner, 0], X[inner, 1], "bo") 
plt.show() 


非 线 性 可 分 数据 示例 如 图 2.5 所 示 。 
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图 2.5 非 线性 可 分 数据 示例 


4) 标准 化 数据 ， 以 确保 两 个 圆 的 中 心 是 〈1,1): 


X = X41 
5) 为 了 确定 算法 的 性 能 ， 对 数据 进行 分 割 : 


X train, X val, y train, y val = train test split(X, y, 
test size-0.2, random state-SEED) 


6) 线性 激活 函数 在 这 种 情况 下 不 起 作用 ， 所 以 使 用 sigmoid 函数 : 


def sigmoid (x): 
return 1 / (1 + np.exp(-x)) 


7) 接 下 来 ,定义 超 参 数 : 


n hidden = 50 # 隐 层 神经 元 数目 
n epochs = 1000 
learning rate - 1 


8 ) 初始 化 权重 和 其 他 变量 : 


# 初始 化 权 值 

weights hidden = np.random.normal(0.0, size-(X train.shape[1], 
n hidden)) 

weights output = np.random.normal(0.0, size-(n hidden)) 


hist loss = [] 
hist accuracy = [] 
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9) 运行 单 层 神经 网 络 并 输出 统计 信息 : 


for e in range (n, epochs): 
del w hidden = np.zeros(weights hidden.shape) 
del w output = np.zeros(weights output.shape) 


# 按 批量 1 循环 加 载 训练 数据 

tor X , y. in zip(X train, y traria): 

# 前 向 计算 

hidden input = np.dot (x_, weights hidden) 

hidden output = sigmoid(hidden input) 

output = sigmoid(np.dot (hidden output, weights output)) 


# 后 向 计算 
error = y -— output 
output error - error * output * (1 - output) 


hidden, error = np.dot(output error, weights, output) * 
hidden, output 
* (1 - hidden output) 
del w output += output error * hidden output 
del w hidden += hidden error * x [:, None] 


# 更 新 权 值 
weights hidden += learning rate * del w hidden / X train.shape[0] 
weights output += learning rate * del w output / X train.shape[0] 


# 输出 状态 ( 验证 损失 的 精度 ) 

if e $ 100 == 

hidden output = sigmoid(np.dot(X val, weights hidden)) 
out = sigmoid(np.dot (hidden output, weights, output)) 


loss = np.mean((out - y val) ** 2) 

+ AMEA BIÉEO.5 

predictions = out > 0.5 

accuracy = np.mean (predictions == y_val) 

print("Epoch: ", '[(:»4j'.format(e), 
"; Validation loss: ", 'í(:»56]'.format(loss.round(4)), 
"e Validation accuracy: *, 


' (:56)'.format (accuracy.round(4))) 


在 图 2.6 中 ， 显 示 了 训练 期 间 的 输出 结 


迭代 周期 : ; ”验证 损失 值 : 04194; ”验证 精度 : 
ANUAL HII : ; ”验证 损失 值 : 0.2034; “验证 精度 : 
达 代 周期 : ; ”验证 损失 值 : 0.44519; 验证 精度 : 
IRAR JE I : ; ”验证 损失 值 : 0.4165; 验证 精度 : 
KARJE IH: ; ”验证 损失 值 : 0.0026; “验证 精度 : 


KARJE IH: ; ”验证 损失 值 : 0.0761; 验证 精度 : 
迭代 周期 : ; ”验证 损失 值 : 0.0643 ; 验证 精度 : 
达 代 周期 : ; ”验证 损失 值 : 0.0555; ”验证 精度 : 
迭代 周期 : ; ”验证 损失 值 : 0.0488; “验证 精度 : 
迭代 周期 : ; ”验证 损失 值 : 0.0436; 验证 精度 : 


图 2.6 训练 期 间 统计 信息 
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2.4 构建 一 个 多 层 神 经 网 络 

在 前 面 的 方案 中 创建 的 实际 上 是 FNN 最 简单 的 形式 : 信息 只 在 一 个 方向 流动 的 神经 网 
络 。 对 于 下 一 个 方案 ， 将 隐 层 的 数量 从 一 层 扩 展 到 多 层 。 增 加 额外 的 层 可 以 增加 网 络 的 性 
能 ， 学 习 复杂 的 非 线性 模式 。 

如 图 2.7 所 示 ， 增 加 附加 层 后 ， 神 经 元 连接 ( 权重 ， 也 称 为 可 训练 参数 ) 的 数量 会 呈 指 
数 增 长 。 在 下 一 个 方案 中 ， 将 创建 一 个 具有 两 个 隐 层 的 网 络 来 预测 葡萄 酒 的 品质 。 这 是 一 
个 回归 任务 ， 所 以 对 输出 层 使 用 线性 激活 。 对 于 隐 层 ， 使 用 了 ReLU 激活 因数 。 这 个 方案 使 
用 Keras JEZE 2E Sc nij os P9 28 o 


图 2.7 两 层 神 经 网 络 ， 具 有 i 个 输入 变量 、n 个 隐 层 神经 元 和 m 个 隐 层 神经 元 以 及 单个 输出 神经 元 


如 何 去 做 … 
1 ) 从 导入 函数 库 和 数据 集 开始 ， 


import numpy as np 
import pandas as pd 
from sklearn.model selection import train test split 


from keras.models import Sequential 


from keras.layers import Dense 
from keras.callbacks import EarlyStopping, ModelCheckpoint 
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from keras.optimizers import Adam 
from sklearn.preprocessing import StandardScaler 
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2 ) 加 载 数据 集 : 


data = pd.read csv('Data/winequality-red.csv', sep-';') 
y — data['quality'] 
x = data.drop(['quality'], axis-1) 


3) 拆 分 数据 ， 进 行 网 络 训练 和 测试 : 


X train, X test, y train, y test - train test split(X, y, 
test size-0.2, random state-SEED) 


4) 输出 显示 平均 品质 和 第 一 行 训练 集 : 


print('Average quality training set: 
(:.4£)'.format(y train.mean())) 
X train.head() 


在 图 2.8 中 ， 可 以 看 到 一 个 网 络 训练 的 结 采 输出 实例 。 


训练 集 平均 质量 : 5.623143 

| 固定 酸度 | 挥发 酸度 |PER| RE ”| 氧化 物 | 游离 二 氧化 硫 | 总 二 氧化 硫 。 | 密度 |pH 值 | 硫酸 盐 | 酒精 _ 
o m [| om | om | 1» lom | no | smo [ews|ssi ose | o4 
i| 7s | ow | o | 26 [oos] 250 | oro logs|320 oss | os 


P[ s [ ew | em | 23 ww | so | se lol sal vss | os 
s[ ua [ ex | os | 1»  ows | o | soo oss [sie oss | o8 
4[ 4 em [^em | 31» [ewe | no | 3 osse [ssi oss | »4 


图 2.8 训练 数据 


5) 接 下 来 的 一 个 重要 步 又 是 对 输入 数据 进行 标准 化 : 


scaler = StandardScaler().fit(X train) 
X train = pd.DataFrame(scaler.transform(X train)) 
X test - pd.DataFrame(scaler.transform(X test)) 


6) 确定 基准 预测 : 
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# 对 每 个 验证 输入 的 训练 数据 预测 其 平均 质量 

print('MSE:', np.mean((y test - ([y train.mean()] * 
y test.shape[0])) ** 2) .round (4) ) 

$4 MSE: 0.594 


7) WE, ilie X MAR IRTADICTA EE TI SS o ARUM : 


model = Sequential() 

# 第 一 隐 层 含 100 个 神经 元 

model.add(Dense(200, input dim-X train.shape[1], 
activation-'relu')) 

# 第 二 隐 层 含 50 个 神经 元 

model.add(Dense(25, activation="'relu')) 

# 输出 层 

model.add(Dense(1, activation='linear')) 

# 设置 优化 器 

opt = Adam() 

# 编译 模型 

model.compile(loss-'mse', optimizer-opt, metrics=['accuracy']) 


8) 定义 回调 函数 ， 以 便 使 用 早 集 技术 并 保存 最 佳 模 型 . 


callbacks = [ 

EarlyStopping (monitor='val_acc', patience-20, 
verbose-2), 
ModelCheckpoint('checkpoints/multi layer best, model.h5', 
monitor-'val acc', save best only-True, verbose-0) 


] 
9) 运行 批 大 小 为 64 的 模型 5000 个 周期 ， 验 证 集 按 20964) 8] : 


batch size = 64 
n epochs = 5000 
model.fit(X train.values, y train, batch size-batch, size, 
epochs-n epochs, validation split-20.2, 
verbose-2, 
callbacks-callbacks) 


10) 加 载 最 佳 权 重 后 ， 可 以 在 测试 集 上 输出 显示 性 能 : 


best model = model 
best model.load weights('checkpoints/multi layer best model.h5') 
best model.compile(loss-'mse', optimizer-'adam', 
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metrics-['accuracy!']) 


# 评价 测试 集 
Score = best model.evaluate(X test.values, y test, verbose-0) 
print('Test accuracy: $.2f$$' $ (score[1]*100)) 


## 测试 精度 : 66.25% 
## 基准 数据 库 精 度 : 62.4% 


FF 一 


对 于 小 数据 集 ， 建 议 重 新 训练 全 部 训练 集 数据 (无 验证 集 )， 并 上 调 与 附加 数 | 
据 成 比例 的 周期 数 。 另 一 种 选择 是 在 进行 预测 时 使 用 交叉 验证 和 平均 结果 。 | 


[rr ————n—————————————— ÀÁ—————————————À———————————————————M———Torer————————  —— 


2.5 开始 使 用 激活 函数 

如 采 只 使 用 线性 激活 函数 ， 神 经 网 络 将 代表 大 量 的 线性 组 合 。 然 而 ， 神 经 网 络 的 功 
用 在 于 它们 对 复杂 非 八 性 行为 的 建 模 能 力 。 在 前 面 的 方 宁 中 简单 介绍 了 非 线 性 激活 孔 数 
Sigmoid 和 ReLU， 还 有 很 多 流行 的 非 线 性 激活 函数 ， 如 ELU、Leaky ReLU、TanH 和 
Maxout。 

没有 一 条 关于 哪个 激活 最 适合 隐 层 神经 元 的 规则 。 阁 度 学 习 是 一 个 相对 较 新 的 领域 ， 
大 多 数 结果 是 通过 反复 试验 和 误差 调整 来 获得 ， 而 不 是 数学 证 明 。 对 于 输出 神经 元 ， 使 用 
单个 输出 神经 元 和 线性 激活 函数 来 执行 回归 任务 。 对 于 具有 二 类 的 分 类 任务 ， 使 用 却 个 输 
出 节点 和 一 个 Softmax 激活 函数 。Softmax PR GB fii v] 28 58; Hj 0~1 之 间 的 概率 为 互 斥 类 ， 
概率 总 和 为 1。 对 于 二 元 分 类 ， 也 可 以 使 用 单个 输出 节点 和 Sigmoid 激活 函数 输出 概率 值 。 

为 隐 层 神经 元 选择 正确 的 激活 函数 至 关 重 要 。 在 反问 传播 过 程 中 ， 更 新 取决 于 激活 隆 
数 的 导数 。 对 于 座 度 神经 网 络 ， 更 新 权重 的 梯度 可 以 在 前 几 层 (也 称 为 梯度 渐变 问题 ) 中 
变 为 和 老 ， 或 者 可 以 指数 级 增长 〈 也 称 为 梯度 爆炸 问题 )。 特 别 是 当 激 活 果 数 仅 在 小 值 时 取 导 
数 (例如 Sigmoid 激活 函数 ) 或 激活 函数 导数 取 值 大 于 1 时 ， 上 述 情况 尤为 明显 。 

ReLU 等 激活 水 数 可 以 防止 这 种 情况 发 生 。 当 输出 为 正 时 ，ReLU 的 导数 为 1， 否则 为 
0。 当 使 用 ReLU 激活 困 数 时 ， 会 产生 一 个 稀 玻 网 络 ， 其 数量 相对 较 少 。 在 这 种 情况 下 ， 通 
过 网 络 传递 的 损失 似乎 更 有 用 。 在 一 些 情况 下 ，ReLU 导致 太 多 的 神经 元 死亡 。 在 这 种 情况 
下 ， 应 该 尝试 一 个 变种 ， 比 如 Leaky ReLU。 在 下 一 个 方案 中 ， 用 深度 ENN 对 手写 数字 进 
行 分 类 ， 以 此 来 对 比 Sigmoid 和 ReLU 激活 晒 数 之 间 的 结果 差异 。 


如 何 去 做 … 
1 ) 导入 函数 库 和 数据 集 : 
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import numpy as np 

import pandas as pd 

from sklearn.model selection import train test split 
import matplotlib.pyplot as plt 


from keras.models import Sequential 
from keras.layers import Dense 

from keras.utils import to categorical 
from keras.callbacks import Callback 


from keras.datasets import mnist 


SEED = 2017 


2.) 加 载 MNIST 数据 集 : 


(X train, y train), (X val, y val) = mnist.load data() 


3 ) 显示 每 个 标签 的 示例 并 输出 对 显示 每 个 标签 的 计数 : 


# 按 标 写 绘制 第 一 个 图 像 
unique labels = set (y_train) 
plt.figure(figsize-(12, 12)) 


i = 1 
for label in unique labels: 
image = X train[y train.tolist().index(label)] 


Dit.subDloLt(l0, I0,. x] 
pit.axis('orr') 

plt.title("(í0): ({1})".format (label, 
y_train.tolist ().count (label))) 


i += 1 
2 = plt .imshow (image, cmap='gray') 
plt.show() 


获得 如 图 2.9 所 示 结 


0:(5923) 1:(6742) 2:(5958) 3:(6131) 4:(5842) 5:(5421) 6:(5918) 7:(6265) 8:(5851) 9:(5949) 


HO uE ETO E 


图 2.9 MNIST 数据 集中 的 标签 ( 和 计数 ) 示例 


4) 预 处 理 数据 : 
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# 数据 标准 化 
X train = X train.astype('float32')/255. 
X val = X val.astype('float32')/255. 


# 对 标号 独 热 编 码 
y train = np utils.to categorical(y train, 10) 
y val = np utils.to categorical(y val, 10) 


# 拼合 数据 一 将 图 像 拉 伸 为 一 系列 连续 值 
X train = np.reshape(X train, (60000, 784)) 
X val = np.reshape(X val, (10000, 784)) 


5) 用 Sigmoid 激活 图 数 定 义 模 型 : 


model sigmoid = Sequential () 

model_sigmoid.add (Dense (700, input_dim=784, activation='sigmoid')) 
model sigmoid.add(Dense(700, activation-'sigmoid')) 

model sigmoid.add(Dense(700, activation-'sigmoid')) 

model sigmoid.add(Dense(700, activation-'sigmoid')) 

model sigmoid.add(Dense(700, activation-'sigmoid')) 

model sigmoid.add(Dense(350, activation-'sigmoid')) 

model sigmoid.add(Dense(100, activation-'sigmoid!)) 

model sigmoid.add(Dense(10, activation-'softmax')) 


# H SGD 编译 模型 
model sigmoid.compile(loss-'categorical, crossentropy', 
optimizer-'sgd', metrics-['accuracy']) 


6) 使 用 ReLU 激活 函数 定义 模型 .: 


model relu = Sequential() 

model relu.add(Dense(700, input dim-784, activation-^'relu!)) 
model relu.add(Dense(700, activation-^'relu!)) 

model relu.add(Dense(700, activation-^'relu!)) 

model relu.add(Dense(700, activation-^'relu!)) 

model relu.add(Dense(700, activation-^'relu')) 

model relu.add(Dense(350, activation-*'relu!')) 

model relu.add(Dense(100, activation-*'relu')) 

model relu.add(Dense(10, activation-'softmax!')) 


* 用 SGD 编译 模型 
model relu.compile(loss-'categorical crossentropy!, 
optimizer-'sgd', metrics-['accuracy']) 


7) 创建 一 个 回调 函数 来 存储 每 个 批 次 的 损失 值 : 
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class history_loss(cb.Callback): 
def on train begin(self, logs={}): 
self.losses = [] 


def on batch end(self, batch, logs-í]): 
batch loss = logs.get('loss') 
self.losses.append(batch loss) 


8) 运行 模型 : 


n epochs = 10 
batch size - 256 
validation split = 0.2 


history sigmoid = history loss() 
model sigmoid.fit(X train, y train, epochs-n epochs, 
batch size-batch, size, 

callbacks-[history sigmoid], 

validation split-validation split, verbose-2) 


history relu - history loss() 
model relu.fit(X train, y train, epochs-n, epochs, 
batch size-batch, size, 

callbacks-[history relu], 

validation split-validation split, verbose-2) 


9 ) 绘制 损失 分 布 图 例 : 


plt.plot (np.arange (len (history_sigmoid.losses)), sigmoid, 
label-2'sigmoid') 

plt.plotí(np.arange(len(history relu.losses)), relu, label-'relu!) 
plt.title('Losses!) 

plt.xlabel('number of batches!) 

plt.ylabel('loss') 

plt.legend(loc-21) 

plt.show () 


这 段 代码 给 出 了 如 图 2.10 PIRR o 
10) 提取 每 层 模型 的 最 大 权重 : 


w sigmoid = [] 


w relu = [| 

for i in range(len(model sigmoid.layers)): 
w Ssigmoid.append (max(model sigmoid.layers[i].get weights()[1])) 
w relu.append(max(model relu.layers[i].get weights()[1])) 


33 


Python 深度 学 习 实 战 : 
75 个 有 关 神 经 网 络 建 模 、 强 化 学 习 与 迁移 学 习 的 解决 方案 


损失 值 变化 趋势 


= Sigmoid 
— ReLU 


500 750 1000 1250 1500 1750 
批 数 


图 2.10 Sigmoid 和 ReLU 模型 的 损失 
11) 绘制 两 个 模型 的 权重 分 布 图 例 : 


fig, ax = plt.subplots () 


index = np.arange(len (model, sigmoid.layers)) 
bar width = 0.35 


plt.bar(index, w sigmoid, bar width, label-2^'sigmoid', 
color-'b', alpha-0.4) 

plt.bar (index + bar width, w relu, bar width, label-'relu', 
color-'r', alpha-20.4) 

plIt.title('weighrs across layers') 

plt.xlabel('layer number') 

plt.ylabel('maximum weight") 

plt.legend(loc-20) 


plt.xticks(index + bar width / 2, np.arange(8)) 
plt .show () 


得 到 如 图 2.11 所 示 结 


Fl 


在 第 3 章 卷 积 神经 网 络 中， 将 向 读者 展示 如 何在 MNIST 数据 集 上 获得 超 
过 99% 的 精度 。 


| 
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跨 层 权 重 


EN Sigmoid 
EN ReLU 


图 2.11 Sigmoid 和 ReLU 激活 函数 的 各 层 之 间 的 最 大 权重 


2.6 ”关于 隐 层 和 隐 层 神经 元 的 实验 

一 般 神 经 网 络 中 最 第 用 的 层 是 完全 连接 的 层 。 在 全 连接 层 中 ， 两 个 连续 层 中 的 神经 
元 部 是 成 对 连接 的 。 但 是 ， 同 一 隐 层 中 的 神经 元 之 间 不 会 共 圣 任何 连接 。 如 前 所 述 ， 层 
与 层 之 间 的 连接 权重 也 称 为 可 训练 参数 。 这 些 连 接 的 权重 由 网 络 进行 训练 。 连 接 越 多 ， 
参数 越 多 ， 建 横越 复 淋 。 大 部 分 最 先进 的 模型 部 有 超过 1 亿 个 参 效 。 但 是 ， 具 有 多 个 层 
次 和 神经 元 的 深度 神经 网 络 需要 更 多 的 时 间 来 训练 。 而 且 ， 对 于 非常 深 的 模型 ， 推 新 预 
测 要 花费 更 长 的 时 间 ( 这 在 实时 环境 中 可 能 存在 问题 )。 下面 将 介绍 其 他 音 用 网 络 特有 的 
层 类 型 。 

选择 正确 数量 的 隐 层 和 隐 层 神经 元 可 能 很 重要 。 当 使 用 的 市 点 太 少时 ,模型 将 无 法 拾 
取 所 有 的 信和 号， 这 会 叶 怪 精度 降低 和 预测 性 能 变 差 ( 欠 拟 合 )。 使 用 太 多 的 市 点 ， 模 型 将 倾 
问 于 过 度 训练 数据 C 见 正规 化 报 术 ， 防 止 过 拟 合 )， 汉 化 能 力 差 。 因 此 ， 要 看 验证 数据 的 性 
能 ， 才 能 找到 适当 的 平衡 。 在 下 一 个 方案 中 ， 将 展示 一 个 过 拟 合 的 例子 ， 并 输出 可 训练 参 
数 的 数量 。 
如 果 有 大 量 可 用 的 高 维 训练 数据 ， 则 深度 FNN 表现 良好 。 对 于 简单 的 分 类 或 回 | 
归 任 务 ， 通 常 单 层 神经 网 络 效果 最 好 。 | 


M 


如 何 去 做 … 
1 ) 导入 函数 库 和 数据 集 : 
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import numpy as np 

import pandas as pd 

import matplotlib.pyplot as plt 

from sklearn.model, selection import train test split 
from sklearn.preprocessing import StandardScaler 


from keras.models import Sequential 
from keras.layers import Dense 
from keras.optimizers import SGD 


SEED = 2017 


2.) 加 载 数据 集 : 


data = pd.read csv('Data/winequality-red.csv', sep-';') 
y = data['quality'] 
X = data.drop(['quality'], axis-1) 


3 ) 将 数据 集 分 解 为 训练 数据 和 测试 数据 : 


X train, X test, y train, y test - train test split(X, y, 
test size-0.2, random state-SEED) 


4 ) 标准 化 输入 数据 : 


scaler = StandardScaler().fit(X train) 
X train = pd.DataFrame(scaler.transform(X train)) 
X test = pd.DataFrame(scaler.transform(X test)) 


5) X4EOLBUCGURVUL A RAT UET TIRE : 


model = Sequential() 
model.add(Dense(1024, input dim-X train.shape[1], 
activation-'relu')) 

model.add(Dense(1024, activation-*'relu')) 
model.add(Dense(512, activation-^'relu!')) 
model.add(Dense(512, activation-2'relu!')) 
# 输出 层 

model.add(Dense(1, activation-'linear')) 
# 设置 优化 器 

opt = SGD() 

# 编译 模型 


model.compile (loss='mse', optimizer-opt, metrics-['accuracy!]) 


6) 设置 超 参 数 并 训练 模型 
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n epochs = 500 

batch size - 256 

history = model.fit(X train.values, y train, batch size-batch, size, 
epochs-n, epochs, validation split-0.2, verbose-0) 


7 ) 对 测试 集 进行 测试 : 


predictions = model.predict(X test.values) 

print('Test accuracy: 

i:£»2)$'.format(np.round(np.sum([y. test--predictions.flatten().roun 
d()])/y test.shape[0]*100, 2))) 


8 ) 22 til VII ZAR JE S rS SE SL : 


plt.plot(np.arange(len(history.history['acc'])), 
history.history['acc'], label-2'training!') 
plt.plot(np.arange(len(history.history['val, acc'])), 


history.history['val acc'], label-2^'validation') 
plt.title('Accuracy') 

plt.xlabel('epochs') 

plt.ylabel('accuracy '!') 

plt.legend(loc-20) 

plt.show() 


获得 图 2.12 所 示 结 


精度 变化 趋势 


一 一 训练 集 


cope A 
h | | | 
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i 
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E212 ”训练 精度 和 验证 精度 


37 


Python 深度 学 习 实 战 : 
75 个 有 关 神 经 网 络 建 模 、 强 化 学 习 与 迁移 学 习 的 解决 方案 


FF 一 


应 该 重点 关注 验证 精度 ， 并 且 在 大 约 450 个 周期 之 后 使 用 早 停 法 来 停止 训练 。; 
| O 这 将 产生 最 高 的 验证 精度 。 在 用 正则 化 提高 泛 化 能 力 添加 Dropout 措施 以 防止 | 
| 过 拟 合 的 内 容 中 ， 介 绍 防止 过 拟 合 的 技术 。 通 过 使 用 这 些 技术 ， 可 以 创建 更 深 | 
的 模型 ， 而 不 会 过 拟 合 训练 数据 。 


和 


mBz.. 

一 般 来 说 ， 对 于 FNN， 使 用 的 隐 层 神经 元 数量 逐 层 减少 。 这 意味 着 在 第 一 个 隐 层 使 用 
的 隐 层 神经 元 最 多 ， 并 且 减 少 每 个 附加 隐 层 的 隐 层 神经 元 数量 。 通 稼 隐 层 神经 元 的 数量 在 
每 个 步骤 中 除 以 2。 请 记 住 ， 这 是 一 个 经 验 法 则 ， 隐 层 和 隐 层 神经 元 的 数量 应 根据 验证 结 
采 ， 通 过 反复 试验 与 减 小 误差 来 获得 。 
在 第 13 章 ”网络 内 部 构造 ”和 第 14 章 预 训练 模型 ”中 ,将 介绍 隐 层 和 隐 层 | 
神经 元 数量 的 优化 技巧 。 | 


i n, i i pis me dt i a et ,i td, i i et td, ed ed et Sd d td, i i i. rm, i Td se de ,i qu. dt dt m i dd td de te te i i dd ed ed te et. ed dt i td Sd a ee i i i i i "n Fn n iA 


2.7 ”实现 一 个 上 自动 编码 雍 

对 于 自动 编码 器 ， 使 用 不 同 的 网 络 架构 ， 如 图 2.13 所 示 。 在 前 几 层 中 ,减少 了 隐 层 神 
经 元 的 数量 。 在 中 间 ， 又 开始 增加 隐 层 神经 元 的 数量 ， 直 到 隐 层 神经 元 的 数量 与 输入 变量 
的 数量 相同 。 中 间 的 隐 层 可 以 看 作 输入 的 编码 变 体 ， 其 输出 决定 了 编码 变 体 的 质量 。 


网 络 隐 层 1 


图 2.13 ”具有 三 个 隐 层 的 目 动 编码 需 网 络 ， 其 中 六 <7 
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在 下 一 个 方案 中 ， 将 在 Keras 中 实现 一 个 自动 编码 右 ， 将 街景 门牌 号 ( SVHN ) 基准 库 
从 32 x 32 图 像 解码 为 32 个 浮 点 数 。 可 以 通过 解码 成 32 x 32 图 像 并 比较 图 像 来 确定 编码 器 
的 质量 。 
如 何 去 做 … 

1) 用 下 面 的 代码 导入 必要 的 函数 库 : 


import numpy as np 
from matplotlib import pyplot as plt 
import scipy.io 


from keras.models import Sequential 
from keras.layers.core import Dense 
from keras.optimizers import Adam 


2.) 加 载 数 据 集 并 提取 所 知 要 的 数据 : 


mat = scipy.io.loadmat('./data/train 32x32.mat') 
mat = mat['X'] 
b, h, d, n = mat.shape 


3) 预 处 理 数据 : 


# 灰 度 值 计算 
img gray = np.zeros(shape -(n, b * h)) 


def rgb2gray (rgb): 
return np.dotí(rgb[...,:23], [0.299, 0,997, 0.1141) 


for i in range (n): 
T 转换 灰 度 值 
img = rgb2gray(mat[:,:,:,1i]) 
img - img.reshape(1, 1024) 
img gray[i,:] = img 


# 标准 化 
X train = img gray/255. 


4) BE Po, XE LB alid aH P EARS : 
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img size = X train.shape[1] 

model = Sequential() 

model.add(Dense(256, input dim-img size, activation-'relu')) 
model.add(Dense(128, activation-*'relu!')) 

model.add(Dense(64, activation-*'relu')) 

model.add(Dense(32, activation-^'relu')) 


model.add(Dense(64, activation-*'relu')) 
model.add(Dense(128, activation-*'relu')) 
model.add(Dense(256, activation-*'relu')) 
model.add(Dense(img size, activation-'sigmoid!)) 


opt = Adam() 
model.compile(loss-'binary crossentropy', optimizer-opt) 


5) WE, FVE H I ds : 


n epochs = 100 
batch size = 512 


model.fit(X train, X train, epochs-n epochs, batch, size-batch, size, 
shuffle-True, validation split-20.2) 


6) 看 看 自动 编 码 如 何在 训练 集 上 执行 : 


pred = model.predict (X train) 


7) 绘制 一 些 原始 图 像 及 其 解码 版 本 ， 如 图 2.14 Brzn o 


n5 

plt.figure(figsize-(15, 5)) 

for i in range(n): 
# 显示 原 图 
ax — plt.subplot(2, n, i -* 1) 
plt.imshow(mat[i].reshape(32, 32), cmap-*'gray') 


ax = plt.subplot(2, n, i + 1 + n) 


plt.imshow(pred[i].reshape(32, 32), cmap-2'gray') 
plt.show() 


——^^L———————AA^AA^A^ ^^^^^—^——^^^^^^^^€^£^^—^—^— ——————————————————————————————————————————————————————————————————————————————————————— 


在 第 3 章 ” 卷 积 神经 网 络 中 ， 将 向 读者 展示 如 何 为 SVHN 数据 集 实现 一 个 卷 
只 自动 编码 器 。 
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图 2.14 ”门牌 号 码 自动 编码 网 络 输入 与 输出 示例 


2.8 ”调整 损失 号 数 

对 监督 学习 问题 ， 在 训练 一 个 神经 网 络 时 ， 其 目标 是 最 小 化 损失 函数 。 损 失 函 数 (也 
称 为 误差 图 数 、 成 本 函数 或 优化 函数 ) 将 预测 结果 与 正 丫 传播 期 间 的 基本 事实 进行 比较 。 
这 个 损失 函数 的 输出 用 于 优化 反 向 传播 期 间 的 权重 。 因 此 ， 损 失 函 数 在 训练 网 络 中 至 关 重 
要 。 通 过 设置 正确 的 损失 函数 ， 使 网 络 针对 期 望 的 预测 进行 优化 。 例 如 ， 对 于 不 平衡 的 数 
据 集 ， 知 要 一 个 不 同 的 损失 孙 数 。 

在 以 前 的 方案 中 ,使 用 均 方 误差 ( MSE ) 和 分 类 交叉 燃 作 为 损失 函数 ， 以 及 其 他 常用 
的 损失 也 数 ， 男 一 种 是 选择 创建 日 定义 损失 孙 数 。 目 定义 损失 函数 可 以 优化 到 所 需 的 输出 。 
当 实 施 生 成 对 抗 网 络 (GAN ) 时 ， 这 将 变 得 更 加 重要 。 在 下 面 的 方案 中 ， 将 训练 分 为 有 调 
整 权 重 和 无 调整 权重 的 网 络 体系 结构 ， 按 此 来 计算 不 平衡 类 别 的 损失 函数 。 


如 何 去 做 … 
1 ) 用 下 面 的 代码 导入 函数 库 ， 


import numpy as np 
from matplotlib import pyplot as plt 
from sklearn.metrics import confusion, matrix 


from keras.datasets import mnist 

from keras.models import Sequential 

from keras.layers import Dense, Dropout 
from keras.optimizers import Adam 

from keras.callbacks import EarlyStopping 


2) 导入 MNIST 数据 集 并 创建 一 个 9s 和 4s 的 不 平衡 数据 集 : 
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(X train, y train), (X test, y test) = mnist.load data() 
# 提取 9s 中 的 全 部 样本 ， 提 取 4s 中 的 100 个 样本 


y train 9 = y train[y train -- 9] 

y train 4 = y train[y train -- 4][:100] 

X train 9 = X train[y train -- 9] 

X train 4 = X train[y train -- 4][:100] 

X train = np.concatenate((X train 9, X train 4), axis-0) 
y train = np.concatenate((y train 9, y train 4), axis-0) 


y test 9 = y test[y test == 9] 
y test 4 y test[y test == 4] 
X test, 9 X test[y test -- 9] 
X test 4 = X test[y test == 4] 
X test = np.concatenate((X test 9, X test 4), axis-0) 
y test - np.concatenate((y test 9, y test 4), axis-0) 


3 ) 标准 化 和 局 平 化 数据 : 


X train = X train.astype('float32')/255. 

X test = X test.astype('tloat3s2')/255. 

X train = X train.reshape(len(X train), np.prod(X train.shape[1:])) 
X test - X test.reshape(len(X test), np.prod(X test.shape[1:])) 


4 ) 将 目标 转换 为 二 进 制 分 类 问题 并 输出 显示 计数 : 


y train binary = y train == 
y test binary = y test == 
print (np.unique(y train binary, return counts-True)) 


5) 定义 网 络 体系 结构 并 编 详 : 


model = Sequential() 

model.add(Dense(512, input dim-X train.shape[1], 
activation-'relu')) 

model.add (Dropout (0.75)) 

model.add(Dense(512, activation='relu')) 
model.add (Dropout (0.75)) 

model.add(Dense(128, activation='relu')) 
model.add (Dropout (0.75)) 

model.add(Dense(128, activation='relu'!)) 
model.add(Dense(1, activation='sigmoid')) 


opt = Adam () 
model.compile(loss-'binary crossentropy', optimizer-opt, 
metrics-['binary accuracy!']) 
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6) 创建 一 个 回调 函数 来 使 用 早 停 法 : 


callbacks = [EarlyStopping(monitor-'val loss', patience-5)] 


7) 定义 每 个 类 的 损失 权重 : 


class weight, equal = (False : 1., True: 1} 
class, weight, imbalanced = (False : 100, True: 1) 


8 ) 对 两 个 类 训练 相同 权重 的 模型 : 


n epochs = 1000 
batch size - 512 
validation split = 0.01 


model.fit(X train, y train binary, epochs-n epochs, 

batch size-batch size, shuffle-True, 

validation split-validation split, class weight-class weight equal, 
callbacks-callbacks, verbose-0 


) 


9) EMAR ESETHINTAOTA BR T8 AB PE : 


preds, equal = model.predict (X test) 
confusion matrix(y test binary, np.round(preds equal), 
labels-[True, False]) 


TAX ([[1009, 0], 
# [ 982, 0]]) 


10) 接 下 来 ， 用 不 平衡 的 权重 训练 ， 并 在 测试 集 上 进行 测试 : 


model.compile(loss-'binary crossentropy', optimizer-^'rmsprop', 
metrics-['binary. accuracy!']) 


model.fit(X train, y train binary, epochs-n epochs, 
batch size-batch size, shuffle-True, 

validation split-validation split, 

class weight-class weight imbalanced, 
callbacks-callbacks, verbose-0 


) 
preds imbalanced = model.predict (X test) 
confusion matrix(y test binary, np.round(preds, imbalanced), 


labels-[True, False]l) 


TX ([[1009, 3], 
# [ 546, 436]]) 
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2.9 ”测试 不 同 的 优化 器 
最 流行 和 最 有 名 的 优化 器 是 随机 梯度 下 降 (SGD )。 这 种 技术 也 广泛 应 用 于 其 他 机 器 学 
习 模 型 。SGD 是 一 种 通过 迭代 发 现 最 小 值 或 最 大 值 的 方法 。SGD 有 许多 流行 的 变种 ， 其 通过 
使 用 自 适应 学 习 率 来 加 快 收敛 速度 和 减少 调整 。 表 2.1 概述 了 深度 学 习 中 最 常用 的 优化 器 。 
表 2.1 深度 学 习 中 最 常用 的 优化 器 


优化 算法 超 参 数 说 明 
+ 学习 速率 直接 影响 性 能 〈 较 小 的 学 习 速 率 避 例 了 
l 局 部 最 小 值 ) 
SGD Learning rate, decay _ 需要 更 多 的 手动 调整 
- Wee 
+ 所 有 参数 的 自 适 应 学 习 速 率 CE 8 xi Gr Fi ib 2C 
AdaGrad Learning rate, epsilon, decay 据 ) 
-学 习 速 率 太 小 ， 停 止 学 习 
. . + 开始 收敛 快 
AdaDelta Learning rate, rho, epsilon, decay _ 在 最 低 点 附近 减 一 
Adam Learning rate, beta 1, beta 2, epsilon, decay |+ 所 有 参数 的 目 适 应 学 习 速 率 和 动量 
RMSprop Learning rate, rho, epsilon, decay +- 类似 于 AdaDelta， 但 对 于 非 凸 面 问 题 效 果 更 好 
+ 收敛 更 快 
Momentum Learning rate, momentum, decay + JP ERI I] A S] 
- 如 果 动 量 太 大 ， 则 在 最 小 值 附近 振荡 
Nesterov 加 速 梯度 法 
( Nesterov Accelerated|Learning rate, momentum, decay + 与 动量 类 似 ， 但 较 早 放 绥 
Gradient, NAG ) 


TUA d HUC FEAE, RAROCEENE EXUGR-T JH P'VEEDGIESSBIBSE ZI OC foc BUR 
决 方案 能 解决 所 有 问题 。SGD 能 使 用 户 通过 选择 一 个 小 的 学 习 率 来 避免 局 部 最 优化 ， 但 是 
缺点 是 训 练 时 间 太 长 。 在 下 面 的 方案 中 ， 将 用 不 同 的 优化 带 来 训练 网 络 ， 并 比较 结 采 。 


如 何 去 做 … 
1) SEA PRAE : 


import numpy as np 
import pandas as pd 


from sklearn.model selection import train test split 

from keras.models import Sequential 

from keras.layers import Dense, Dropout 

from keras.callbacks import EarlyStopping, ModelCheckpoint 

from keras.optimizers import SGD, Adadelta, Adam, RMSprop, Adagrad, 
Nadam, Adamax 


2) 导入 数据 集 并 提取 目标 变量 : 
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data = pd.read csv('../Data/winequality-red.csv', sep="';'") 
y = data['quality'] 
X — data.drop(['quality'], axis-1) 


3) 拆 分 数据 集 进行 训练 、 验 证 和 测试 : 


X train, X test, y train, y test = train test split(X, y, 

test size-0.2, random state-2017) 

X train, X val, y train, y val = train test split(X train, y train, 
test size-0.2, random state-2017) 


4 ) 定义 一 个 创建 模型 的 函数 : 


def create model (opt): 

model = Sequential() 

model.add(Dense(100, input dim-X train.shape[1], 
activation-'relu')) 

model.add(Dense(50, activation-'relu!)) 
model.add(Dense(25, activation-^'relu')) 
model.add(Dense(10, activation-*'relu')) 
model.add(Dense(1, activation-'linear') 
return model 


) 


5) 创建 一 个 函数 ， 定 义 在 训练 期 间 将 使 用 的 回调 函数 : 


def create callbacks (opt): 

callbacks = | 

EarlyStopping (monitor='val_acc', patience-200, verbose-2), 
ModelCheckpoint('best model ' + opt + '.h5', monitor='val_acc', 
Save best only-True, verbose-0) 

] 


return callbacks 


6) 创建 一 个 想 要 尝试 的 优化 带 字 上 典 : 


opts = dict ({ 
'sgd': SGD(), 
'sgd-0001': SGD (lr=0.0001, decay=0.00001), 
'adam': Adam(), 
'adadelta': Adadelta(), 
'rmsprop': RMSprop(), 
'rmsprop-0001': RMSprop(1r-20.0001), 
'nadam': Nadam(), 
'adamax': Adamax() 


r) 
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7) 训练 网 络 并 存储 结 


results = [] 
op pos 


for opt in opts: 


model = create model (opt) 

callbacks = create callbacks (opt) 
model.compile(loss-'mse', optimizer-opts[opt], 
metrics-['accuracy!']) 

hist - model.fit(X train.values, y train, batch, size-128, 


epochs-5000, 

validation, data-(X val.values, y val), 

verbose-0, 

callbacks-callbacks) 

best epoch = np.argmax(hist.history['val, acc']) 

best acc = hist.history['val acc'][best. epoch] 

best model = create model (opt) 

# 加 载 具 有 最 高 验证 精度 的 模型 

best model.load weights('best model ' + opt + '.h5') 
best model.compile(loss-'mse', optimizer-opts[opt], 
metrics-['accuracy!']l) 

Score = best model.evaluate(X test.values, y test, verbose-0) 
results.append([opt, best epoch, best acc, score[1]]) 


8) 比较 结 


res = pd.DataFrame (results) 

res.columns = ['optimizer', 'epochs', 'val accuracy', 
'test accuracy'] 

res 


得 到 如 图 2.1$ 所 示 结 


0.519531 0.53750 
112 0.589844 0.61250 
0.000000 0.000000 


测试 集 精 度 


rmsprop 0.597656 


图 2.15 oS A) TER JR Et PICS 8 f HL RC Aie VERI s 
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在 第 12 章 ” 超 参 数 选择 、 调 优 和 神经 网 络 学 习 中， 将 演示 如 何 使 用 网 格 搜索 ， 
末 进 和 大 才 调 做， 网 格 搜索 可 以 用 来 性 找 合 和 的 优化 器 (结合 其 他 超 基 类) $ 
TR] 整 神 经 网 络 e 过 程 。 


让 


2.10 使 用 正则 化 技术 提高 泛 化 能 

过 度 训练 数据 是 机 器 学 习 最 大 的 挑战 之 一 。 有 许多 机 器 学 习 算法 能 够 通过 记忆 所 有 的 
博 况 来 对 训练 数据 进行 训练 。 在 这 种 情况 下 ， 该 算法 可 能 无 法 证 化 并 对 新 数据 做 出 正确 的 
预测 。 这 对 于 深度 学 习 来 说 是 一 个 特别 大 的 威胁 ， 其 中 神经 网 络 具 有 大 量 的 可 训练 参数 。 
因此 ， 创 建 一 个 具有 代表 性 的 验证 集 是 非常 重要 的 。 


在 深度 学 习 中 ， 解 决 新 闻 题 的 一 般 建议 是 先 尽 可 能 地 过 拟 合 训练 数据 。 这 可 以 
确保 模型 能 够 对 训练 数据 进行 训练 并 且 足 够 复杂 。 之 后 ， 应 该 尽 可 能 地 调整 ， 
以 确保 该 模型 能 够 wa (验证 集 e 

大 多 数 用 于 防止 过 拟 合 的 技术 都 可 以 置 于 正则 化 之 下 。 正 则 化 包括 机 器 学 习 中 的 所 有 
技术 ， 明 确 地 减少 测试 〈 因 泛 化 ) 误差 ， 有 时 以 较 高 的 训练 误差 为 代价 。 这 样 的 技术 可 以 
是 对 参数 空间 加 以 限制 的 形式 。 假 设 一 个 具有 较 小 权重 的 模型 比 一 个 具有 较 大 权重 的 模型 
更 简单 。 在 下 面 的 方案 中 ， 将 应 用 L1 正则 化 来 防止 模型 过 拟 合 


如 何 去 做 … 
1 ) 首先 ， 导 入 所 需 的 函数 库 ， 


import numpy as np 
import pandas as pd 
from matplotlib import pyplot as plt 


from keras.models import Sequential 


from keras.layers import Dense, Dropout 
from keras import regularizers 


2) 导入 数据 并 提取 特征 : 


data = pd.read csv('Data/bike-sharing/hour.csv') 
# 特征 工程 


ohe features = ['season', 'weathersit', 'mnth', 'hr', 'weekday'] 
for feature in ohe features: 
dummies - pd.get dummies(data[feature], prefix-feature, 


drop first-False) 
data = pd.concat([data, dummies], axis-1) 
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drop features = ['instant', 'dteday', 'season', 'weathersit', 
'weekday', 'atemp', 'mnth', 'workingday', 'hr', 


'casual', 'registered'!] 
data = data.drop(drop features, axis-1) 


3 ) 标准 化 数值 数据 : 


norm features = ['cnt', 'temp', 'hum', 'windspeed'] 


Scaled features = {} 
for feature in norm features: 


mean, std = data[feature].mean(), data[feature].std() 


scaled features[feature] = [mean, std] 


data.loc[:, feature] = (data[feature] - mean)/std 


4) 分 割 数 据 集 进 行 训练 、 验 证 和 测试 : 


# 保存 最 后 月 份 数据 用 于 测试 

test data = data[-31*24:] 
data = data[:-31*24] 

# 提取 目标 域 

target fields = ['cnt'] 


features, targets = data.drop(target fields, axis-1), 


data[target fields] 


test features, test targets - test data.drop(target fields, 


axis-1), test data[target fields] 
# 创建 验证 集 (基于 最 后 ) 


X train, y train = features[:-30*24], targets[:-30*24] 


X val, y val = features[-30*24:], targets[- 


5) 定义 网 络 体系 结构 : 


model = Sequential () 


30*24:] 


model.add(Dense(250, input dim-X train.shape[1], 


activation-'relu')) 

model.add(Dense(150, activation-s*'relu')) 
model.add(Dense(50, activation-'relu!')) 

model.add(Dense(25, activation-*'relu!)) 

model.add(Dense(1, activation-'linear')) 


# 编译 模型 


model.compile(loss-'mse', optimizer-2'sgd', 


6) 在 训练 数据 上 训练 网 络 体系 结构 并 使 用 验证 集 : 
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n_epochs = 4000 
batch_size = 1024 


history = model.fit(X train.values, y train['cnt'], 
validation data-(X val.values, y val['cnt']), 
batch size-batch size, epochs-n epochs, verbose-0 


) 


7) 绘制 训练 过 程 和 验证 损失 图 例 ， 如 图 2-16 Brzn 


plt.plot (np.arange (len (history.history['loss'])), 
history.history['loss'], label='training') 

plt.plot (np.arange (len (history.history['val_loss'])), 
history.history['val loss'], label='validation') 
plt.title('Overfit on Bike Sharing dataset!) 
plt.xlabel('epochs!') 

plt.ylabel('loss') 

plt.legend(loc-20) 

plt.show() 


M AE JEER R EHE 


一 一 训练 集 
一 一 验证 集 


500 1000 1500 2000 2500 3000 3500 4000 
运 代 周 期 


图 2.16 训练 数据 模型 的 过 拟 合 〈 训 练 损 失 在 1000 个 周期 后 略 有 上 升 趋势 ) 
8) 绘制 最 小 损失 图 例 ， 以 及 在 多 少 个 周期 后 达到 了 这 个 最 小 值 : 


print('Minimum loss: ', min(history.history['val_loss']), 
'NnAfter ', np.argmin(history.history['val loss']), ' 
epochs') 


# 最 小 损失 值 : 0.140975862741 
# 730 次 大 代 周期 
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9) H L2 正则 化 定义 网 络 体系 结构 : 


model reg = Sequential() 
model reg.add(Dense(250, input dim-X train.shape[1], 
activation-'relu', 

kernel regularizer-regularizers.12(0.005))) 
model reg.add(Dense(150, activation-'relu!)) 
model reg.add(Dense(50, activation-'relu')) 
model reg.add(Dense(25, activation-'relu', 

kernel regularizer-regularizers.12(0.005))) 
model reg.add(Dense(1, activation-'linear')) 


# 编译 模型 


model_reg.compile(loss='mse', optimizer='sgd', metrics=['mse']) 


10) 训练 调整 后 的 网 络 : 


hist reg = model, reg.fit(X train.values, y train['cnt'], 
validation data-(X val.values, y val['cnt']), 
batch size-1024, nb epoch-4000, verbose-0 
) 


11) 绘制 出 结 采 : 


plt.plotí(np.arange(len(history reg.history['loss!'])), 
history reg.history['loss'], label-2'training') 
plt.plotí(np.arange(len(history reg.history['val. 1oss'])), 


history reg.history['val loss'], label-2'validation') 
plt.title('Use regularisation for Bike Sharing dataset!) 
plt.xlabel('epochs!') 

plt.ylabel('loss') 

plt.legend(loc-20) 

plit.show() 


得 到 如 图 2.17 所 示 结 果 。 
单车 共享 数据 集 上 的 L2 正 则 化 模型 


500 1000 1500 2000 2500 3000 3500 
迭代 周期 


图 2.17 L2 正则 化 模型 防止 过 拟 合 
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12 ) 输出 显示 正则 化 模型 的 统计 数据 : 


print('Minimum loss: ', min(history reg.history['val loss']), 
'NnAfter ', np.argmin(history reg.history['val loss']), ' 
epochs!') 


# 最 小 损失 值 : 0.13514482975 
+ 3647 认 迭代 周期 


2.11 添加 Dropout 以 防止 过 拟 合 

为 一 个 流行 的 正则 化 方法 是 Dropout 技术 。 在 学 习 阶 段 通过 随机 删除 神经 元 之 间 的 连 
接 ，Dropout 方法 迫使 神经 网 络 学 习 多 个 独立 的 表达 。 例 如 ， 当 使 用 0.5 的 Dropout 时 ， 必 
须 和 完 对 网 络 训 练 两 个 迭代 ， 此 后 再 训练 新 的 连接 权重 。 因 此 ， 一 个 有 Dropout 的 网 络 可 看 作 
一 个 网 络 的 集合 。 

在 下 面 的 方 和 荣 中 ， 将 通过 添加 Dropout 方法 来 改进 一 个 明显 过 度 训练 数据 的 模型 。 


如 何 去 做 … 
1) FA KUEN TF : 


import numpy as np 
import pandas as pd 
from sklearn.model_selection import train_test_split 


from keras.models import Sequential 

from keras.layers import Dense, Dropout 

from keras.wrappers.scikit_learn import KerasRegressor 
from sklearn.model_selection import cross_val_score 
from sklearn.model selection import KFold 

from sklearn.preprocessing import StandardScaler 

from sklearn.pipeline import Pipeline 


import numpy as np 
from matplotlib import pyplot as plt 


2 ) 加 载 数 据 集 并 提取 特征 : 


data = pd.read csv('../Data/Bike-Sharing-Dataset/hour.csv') 

# 特征 工程 

ohe features = ['season', 'weathersit', 'mnth', 'hr', 'weekday'] 
for feature in ohe features: 

dummies = pd.get dummies(data[feature], prefix-feature, 

drop first-False) 

data = pd.concat([data, dummies], axis-1) 
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drop features = ['instant', 'dteday', 'season', 'weathersit', 
'weekday', 'atemp', 'mnth', 'workingday', 'hr', 'casual', 
'registered'] 

data = data.drop(drop features, axis-1) 


3 ) 标准 化 特征 : 


norm features = ['cnt', 'temp', 'hum', 'windspeed'] 
scaled features = 1{} 

for feature in norm features: 

mean, std = data[feature].mean(), data[feature].std() 
scaled features[feature] = [mean, std] 

data.loc[:, feature] = (data[feature] - mean)/std 


4) 拆 分 数据 集 以 进行 训练 、 验 证 和 测试 : 


* 保存 最 后 一 个 月 的 数据 用 于 测试 
test data = data[-31*24:] 
data = data[:-31*24] 


# 提取 目标 域 

target fields = ['cnt'] 

features, targets - data.drop(target fields, axis-1), 
data[target fields] 

test features, test targets - test data.drop(target fields, 
axis-1), test data[target fields] 


# 创建 验证 集 (基于 最 后 ) 
X train, y train = features[:-30*24], targets[:-30*24] 
X val, y val = features[-30*24:], targets[-30*24:] 


5) 定义 模型 : 


model = Sequential() 

model.add(Dense(250, input dim-X train.shape[1], 
activation-'relu')) 

model.add(Dense(150, activation^-^'relu!')) 
model.add(Dense(50, activation-*'relu')) 
model.add(Dense(25, activation-*'relu')) 
model.add(Dense(1, activation-'linear')) 


# 编译 模型 


model.compile(loss-'mse', optimizer-'sgd', metrics-['mse'!']) 


6) 设置 超 参 数 并 训练 模型 s 


22 


前 


n epochs = 1000 
batch size - 1024 


history = model.fit(X train.values, y train['cnt!], 
validation data-(X val.values, y val['cnt']), 
batch size-batch size, epochs-n epochs, verbose-0 


) 


7 ) 绘制 训练 过 程 和 测试 损失 图 例 : 


plt.plot(np.arange(len(history.history['loss'])), 
history.history['loss'], label-2'training') 
plt.plotí(np.arange(len(history.history['val, loss'])), 


history.history['val loss'], label-'validation') 
plt.title('Overfit on Bike Sharing dataset') 
plt.xlabel('epochs') 

plt.ylabel('loss') 

plt.legend(loc-0) 

plt.show() 


得 到 的 结果 如 图 2.18 所 示 。 


单车 共 至 数据 集 上 的 过 拟 合 


一 一 ”训练 集 
一 一 ”验证 集 


400 600 
达 代 周期 


图 2.18 ”模型 过 拟 合 训练 数据 〈 训 练 损 失 值 在 450 个 周期 后 略 有 增加 ) 
8) 输出 最 小 损失 : 
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print('Minimum loss: ', min(hist.history['val. loss']), 
'NnAfter ', np.argmin(hist.history['val loss']), ' epochs') 
# 最 小 损失 值 : 0.132234960794 


#426 URRA 


9 ) 在 网 络 体系 结构 中 添加 Dropout 以 防止 过 拟 合 : 


model drop 
model drop 


model drop 
model drop 
model drop 
model drop 
model drop 
model drop 
model. drop 
model. drop 


# 编译 模型 
model drop 


= Sequential() 


.add(Dense(250, input dim-X train.shape[1], 
activation-'relu'!')) 


.add (Dropout (0.20)) 


.add (Dense (150, activation-*'relu')) 


.add (Dropout (0.20)) 


.add(Dense(50, activation-*'relu!')) 


.add (Dropout (0.20)) 


.add (Dense (25, activation-*'relu!')) 


.add (Dropout (0 .20)) 


.add (Dense (1, activation-'linear')) 


.Compile (loss='mse', 


10 ) 训练 新 模型 


history drop = model drop.fit(X train.values, 
validation data-(X val.values, 
batch size-batch size, 


) 


11) 绘制 结果 ， 如 图 2.19 所 示 。 


optimizer-'sgd', 


metrics-['mse']) 


y. traain['ent']; 
y. val['cnt']), 


epochs-n epochs, verbose-0 


plt.plot(np.arange(len(history drop.history['loss'])), 
history drop.history['loss']; 
plt.plot(np.arange(len(history drop.history['val loss'])), 


history drop.history['val loss'], 


label-'training!') 


label-'validation') 


plt.title('Use dropout for Bike Sharing dataset') 


plt.xlabel 
plt.ylabel 
plt.legend 
plt.show() 


('epochs') 
('loss') 
(l1oc-20) 
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Dropout 用 于 单车 共享 数据 集 


图 2.19 ”模型 使 用 Dropout 方法 以 防止 过 拟 合 
12) 最 后 ， 输 出 最 终 统计 结果 数据 : 


print('Minimum loss: ', min(history drop.history['val loss']), 
'NnAfter ', np.argmin(history drop.history['val 1loss']), ' 
epochs') 


# 最 小 损失 值 : 0.126063346863 
+ 998 次 迭代 周期 
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在 本 章 中 ， 将 重点 讨论 卷 积 神经 网 络 ( CNN )， 涵 盖 以 下 主题 : 
。 开 始 使 用 滤波 希 和 参数 共计 ; 

。 应 用 层 合并 技术 ; 

。 使 用 批量 标准 化 进行 优化 ; 

。 理 解 填 充 和 步 长 ; 

。 试 验 不 同类 型 的 初始 化 ; 

。 实 现 卷 积 自动 编码 带 ; 

。 将 一 维 CNN 应 用 于 文本 。 


3.1 简介 

本 章 重 点 介绍 CNN 及 其 构建 模块 。 在 本 章 中 ， 将 提供 有 关 CNN 中 使 用 的 技术 和 优化 
方案 。 CNN， 也 称 为 ConvNet， 是 一 种 特定 类 型 的 FNN， 其 中 网 络 具有 一 个 或 多 个 卷 积 层 。 
卷 积 层 可 以 用 完全 连接 的 层 补 充 。 如 果 网 络 只 包含 卷 积 层 ， 网 络 结构 命名 为 完全 卷 积 网 络 
(FCN )。 

卷 积 网 络 和 深度 学 习 在 计算 机 视觉 中 是 密 不 可 分 的 。 但 是 ，CNN 也 可 以 用 于 其 他 应 用 ， 
比如 各 种 NLP 问题 ， 将 在 本 章 中 介绍 。 


3.2 ”开始 使 用 滤波 器 和 参数 共享 

下 面 介绍 卷 积 网 络 中 最 重要 的 部 分 : 卷 积 层 。 在 卷 积 层 中 ， 有 对 输入 数据 进行 卷 积 的 
块 ( 如 请 动 窗口 ) 该 技术 为 每 个 块 共 圣 参数 ， 以 便 可 以 在 整个 输入 数据 中 检测 块 内 的 特 
征 。 块 的 大 小 称 为 内 核 大 小 或 沽 波 天 大 小 。 绽 上 所 述 ， 卷 积 层 提取 了 整个 特征 集合 内 的 局 
部 特征 。 在 图 3.1 中 用 图 像 作 为 输入 数据 来 对 此 加 以 说 明 。 

输入 数据 可 以 包含 多 个 不 同 的 特征 ， 所 以 这 个 技巧 可 以 应 用 多 次 。 这 被 称 为 滤波 可 数 
量 或 滤波 珊 这 度 。 简 单 地 次 ， 如 采 在 图 像 数 据 上 使 用 具有 五 个 滤波 融 的 卷 积 层 ， 则 卷 积 块 
答 试 学 习 图 像 中 的 五 个 不 同 特征 ， 例 如 曙 子 、 眼 睛 、 嘴 巴 、 耳 汞 和 睫毛 等 的 面部 特征 。 虽 
然 这 些 特征 从 来 没有 明确 规定 ,但 是 网 络 本 号 试图 学 习 有 价值 的 特征 。 
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图 3.1 在 9x6x1 输 入 图 像 上 的 一 个 核心 大 小 为 3x3 MERREN 2 (红色 和 绿色 ) 的 卷 积 块 示例 


对 于 CNN， 建 议 使 用 越 来 越 多 的 滤波 器 ， 例 如 每 个 卷 积 层 的 滤波 器 数量 的 逐 层 
翻 倍 : 32、64 和 128。 


| ————— M á—————————— —————————————————————————— i i i nd, ——————————————————————M—— M — 


在 下 面 的 方案 中 ， 将 实现 一 个 CNN 来 对 第 2 章 中 使 用 的 MNIST 图 像 进行 分 类 。 


如 何 去 做 … 
1 ) 导入 所 有 必要 的 函数 库 ， 


import numpy as np 
from matplotlib import pyplot as plt 


from keras.utils.np utils import to categorical 

from keras.models import Sequential 

from keras.layers.core import Dense, Dropout, Flatten 
from keras.layers import Conv2D 

from keras.optimizers import Adam 

from keras.datasets import mnist 


2 ) 加 载 MNIST Xii 4E . 


from keras.datasets import mnist 
(X train, y train), (X test, y test) = mnist.load  data() 


sy 
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3) 重 整 训 练 数据 来 表示 单 通 道 图 像 输入 : 


img rows, img cols = X train[0].shape[0], X train[0].shape[1] 
X train = X train.reshape(X train.shape[0], img rows, img. cols, 
X test = X test.reshape(X test.shape[0], img rows, img. cols, 


input shape = (img rows, img cols, 1) 


4) 标准 化 输入 数据 : 


X train = X train.astype('float32!')/255. 
X test - X test.astype('float32')/255. 


5) 对 标签 进行 独 热 编 码 ( one-hot encode ) 9: 


n classes = len(set(y train)) 
y train = to categorical(y train, n classes) 
y test = to categorical(y test, n classes) 


6) 定义 CNN 体系 结构 : 


model = Sequential() 

model.add(Conv2D(32, kernel size-(3, 3), activation-'relu', 
input shape-input shape)) 

model.add(Conv2D(64, kernel size-(3, 3), activation-*'relu!)) 
model.add(Conv2D(128, kernel size-(3, 3), activation-^'relu!)) 
model.add (Dropout (0.5)) 

model.add(Flatten()) 

model.add(Dense(128, activation-*'relu')) 

model.add (Dropout (0.5)) 

model.add(Dense(n classes, activation='softmax'!)) 


opt - Adam() 
model.compile(loss-losses.categorical, crossentropy, 


optimizer-opt, 
metrics-['accuracy!']) 


7) 设置 网 络 超 参数 和 回调 函数 : 


batch size - 128 
n epochs = 11 


callbacks = [EarlyStopping(monitor-*'val acc', patience-5)] 
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8 ) 训练 模型 : 


model.fit(X train, y train, batch_size=batch_size, epochs-n, epochs, 
verbose-1, validation split-0.2, callbacks-callbacks) 


9 ) 在 测试 集 上 显示 结 


Score = model.evaluate(X test, y test, verbose=0) 
print('Test loss:', score[0]) 

print('Test accuracy:', score[1]) 

# 测试 损失 值 : 0.0288668684929 

# 测试 精度 : 0.9927 


# 模型 预测 
preds = model.predict (X test) 


n examples - 10 

plt.figure(figsize-(15, 15)) 

for i in range (n examples): 
ax = plt.subplot(2, n examples, i + 1) 
plt.imshow(X test[i, :, :, 0], cmap-"'gray!') 
plt.title("Label: {}\nPredicted: 
()".format(np.argmax(y test[i]h), np.argmax(preds[il))) 
pibt.axaset'orr*) 

plt.show() 


输出 如 图 3.2 所 示 。 


i 2 2 标签 :1 标签 :0 标签 :4 ee l 标签 :4 ; 标签 :5 标签 :9 
测 :2 预测 :1 预测 :0 预测 :4 |:1 预测 :4 预测 :5 预测 :9 


EPBHDAEBER 


图 3.2 ”真实 标签 、 预 测 标签 和 输入 图 像 的 10 个 例子 


10 ) 绘制 错误 分 类 的 图 像 及 其 标签 


puru figure(figsize-(15, 15)) 


j"1 
for i in range(len(y test)): 
if (j==10): 
break 
label = np.argmax(y test[i]) 
pred = np.argmax(preds[i]l) 
if label !- pred: 
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ax = plt.subplot(2, n examples, j + 1) 
plt.imshow(X test[i, :, :, 0], cmap='gray') 
plt.title("Label: ()MnPredicted: {}".format (label, pred)) 
plt.axis('off') 
Jj 二 =1 

plt.show() 


正如 在 输出 中 看 到 的 那样 ， 一 些 错 误 分 类 的 例子 其 实 很 难 预测 。 例 如 ， 实 际 标签 为 8， 
而 预测 为 9 的 第 七 个 示例 ， 如 图 3.3 所 示 。 


标签 :4 标签 :2 标签 :6 标签 :7 标签 :7 标签 :3 标签 :8 标签 :6 ian 6 标签 :3 
预测 :9 预测 :7 预测 :0 预测 :4 预测 :9 预测 :5 预测 :9 预测 :0 预测 :5 预测 :2 


BHZBHA/BId5gdaia 


图 3.3 图像 错误 分 类 的 10 个 例子 


个 模型 的 结果 已 经 相当 不 错 了 。 在 深度 有 限 的 情况 下 (三 个 卷 积 层 和 一 个 全 连接 


E), pé Za 11 个 周期 ， 在 测试 集 上 获得 了 99.30% 的 精度 。 该 模型 拥有 16 230 794 个 可 
训练 参数 ， se Om e iiie ii、 
最 新 的 人 研究 论文 已 经 获得 了 0.23 的 错误 率 (其 对 应 99.77% 的 精度 )。 此 模型 使 用 了 35 NIR 
e 


测试 得 分 。 


3.3 ”应 用 层 合 并 技术 

一 种 流行 的 CNN 优化 技术 是 层 合并 。 层 合并 是 一 种 用 智能 方式 来 减少 可 训练 参数 的 方 
法 。 两 个 最 常用 的 层 合并 技术 是 平均 池 化 和 最 大 池 化 。 首 先 ， 对 于 指定 的 块 大 小 ， 对 输入 
进行 平均 并 提取 。 对 于 后 者 ， 提 取 块 中 的 最 大 值 。 这 些 层 合并 提供 了 平移 不 变性 。 换 句 话 
说 ,一 个 特征 的 确切 位 置 是 不 太 相 关 的 。 而 且 ， 通 过 减少 可 训练 参数 的 数量 ， 限 制 了 网 络 
的 复杂 性 ， 以 防止 过 拟 合 出 现 。 男 一 个 好 处 是 它 将 大 大 减少 训练 和 推理 时 间 。 

在 下 一 个 方案 中 ， 将 在 上 一 个 方案 中 实现 的 CNN 中 添加 最 大 层 合并 ， 同 时 增加 卷 积 层 
中 的 滤波 需 数 量 


如 何 去 做 … 
1 ) 导入 所 有 必要 的 函数 库 : 


import numpy as np 
from keras.utils import np utils 


from keras.models import Sequential 
from keras.layers.core import Dense, Dropout, Flatten 
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from keras.callbacks import EarlyStopping, ModelCheckpoint 
from keras.layers import Conv2D, MaxPooling2D 
from keras.optimizers import Adam 
from keras.callbacks import EarlyStopping 
2.) 加 载 MNIST 数据 集 : 
from keras.datasets import mnist 
(X train, y train), (X test, y test) = mnist.load, data() 
3) 重 整 训 练 数 据 来 表示 灰 度 图 像 输 入 : 
img rows, img cols = X train[0].shape[0], X train[0].shape[1] 
X train - X train.reshape(X train.shape[0], img rows, img cols, 1) 
X test = X test.reshape(X test.shape[0], img rows, img cols, 1) 
input shape = (img rows, img cols, 1) 


4 ) 标准 化 输入 数据 : 


X train = X train.astype('float32')/255. 
X test = X test.astype('float32')/255. 


5 ) 对 标签 进行 独 热 编码 : 


n classes = len(set(y train)) 
y train = np utils.to categorical(y train, n classes) 
y test = np utils.to categorical(y test, n classes) 


6) 定义 CNN 体系 结构 并 输出 网 络 体 系 结构 : 


model = Sequential() 


model.add(Conv2D(64, kernel size-(3, 3), activation-^'relvu'!, 
input shape-input shape)) 
model.add(MaxPooling2D (pool, size-(2, 2))) 


model.add(Conv2D(128, kernel size-(3, 3), activation-^'relu!'!, 
padding-2'same')) 
model.add(MaxPooling2D (pool, size-(2, 2))) 


model.add(Conv2D(256, kernel size-(3, 3), activation-^'relu'!, 
padding-^'same')) 
model.add(MaxPooling2D (pool, size-(2, 2))) 
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model.add (Dropout (0.5)) 

model.add(Flatten()) 

model.add(Dense(128, activation-^'relu'!')) 
model.add (Dropout (0.5)) 

model.add(Dense(n classes, activation='softmax')) 


model.compile(loss-losses.categorical, crossentropy, 


optimizer-'adam', metrics-['accuracy!]) 
model.summary() 


7) 设置 网 络 超 参数 并 定义 回调 函数 : 


batch size - 128 
n epochs - 200 


callbacks = [EarlyStopping(monitor-2'val acc', patience-5)] 


8 ) 训练 模型 : 


model.fit(X train, y train, batch size-batch size, epochs=n_epochs, 
verbose-1, validation split-0.2, callbacks-callbacks) 


9 ) 在 测试 集 上 显示 结 


Score = model.evaluate(X test, y test, verbose=0) 
print('Test loss:', score[0]) 
print('Test accuracy:', score[1]) 


# 测试 损失 值 : 0.0197916838032 
# 测试 精度 : 0.9955 


在 每 个 卷 积 层 之 后 通过 应 用 最 大 合并 层 ， 能 够 将 错误 率 降 低 到 0.45 ( 与 之 前 的 0.70 的 
错误 率 相 比 ， 下 降 了 36% )。 而 且 ， 通 过 应 用 最 大 层 技 术 ， 可 训练 参数 的 数量 明显 减少 到 
665 994。 可 以 得 知 ， 一 个 周期 只 需要 大 约 Ms. 


3.4 ”使 用 批量 标准 化 进行 优化 

CNN 的 另 一 个 众所周知 的 优化 技术 是 批量 归 一 化 。 该 技术 在 将 其 馈送 到 下 一 层 之 前 对 
当前 批 次 的 输入 进行 标准 化 。 因 此 ， 每 个 批 次 应 在 均值 为 0、 标 准 差 为 1 附近 激活 ， 并 且 可 
以 避免 内 部 协 变量 的 漂移 。 这 使 得 每 批 数据 的 输入 分 布 对 网 络 的 影响 较 小 ， 因 此 该 模型 能 
够 更 好 地 沁 化 和 更 快 地 训练 。 

在 下 面 的 方案 中 ， 将 向 您 展示 如 何 将 批量 标准 化 应 用 于 具有 十 个 类 的 图 像 数 据 集 
( CIFAR-10 )。 首 先 ， 训 练 没 有 批量 标准 化 的 网 络 体系 结构 来 演示 性 能 的 差异 。 
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如 何 去 做 … 


1 ) 导入 所 有 必要 的 函数 库 : 


import numpy as np 
from matplotlib import pyplot as plt 


from keras.utils import np utils 

from keras.models import Sequential 

from keras.layers.core import Dense, Dropout, Activation, Flatten 
from keras.callbacks import EarlyStopping 

from keras.layers import Conv2D, MaxPooling2D 

from keras.layers.normalization import BatchNormalization 


2 ) 加 载 CIFARIO 数据 集 : 


from keras.datasets import cifar10 
(X train, y train), (X val, y val) = cifar10.1load data() 


3 ) 标准 化 输入 数据 : 


X train = X train.astype('float32')/255. 
X val = X val.astype('float32')/255. 


4 ) 对 标签 进行 独 热 编码 : 


n classes = 10 
y train = np utils.to categorical(í(y train, n classes) 
y. Val = np utils.to categorical(y val, n classes) 


5) 定义 CNN 体系 结构 并 输出 网 络 体 系 结构 : 


input, shape = X train[0].shape 
model = Sequential() 


model.add(Conv2D(32, kernel size-(3, 3), input shape-input shape, 
padding-^'same')) 

model.add(Activation('relu!')) 

model.add(Conv2D(32, kernel size-(3, 3), padding-^'same')) 
model.add(Activation('relu!')) 
model.add(MaxPooling2D (pool, size-(2, 2), padding^-^'same')) 


model.add(Dropout (0.25)) 


model.add(Conv2D(64, kernel size-(3, 3), padding-^'same')) 
model.add(Activation('relu!)) 
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padding-^'same')) 


padding-2'same')) 


model.add(Conv2D(64, kernel size-(3, 3), padding-^'same')) 
model.add(Activation('relu!')) 
model.add(MaxPooling2D (pool size-(2, 2), padding-^'same')) 
model.add(Dropout (0.25)) 

model.add(Conv2D(128, kernel size-(3, 3), 
model.add(Activation('relu!)) 

model.add(Conv2D(128, kernel size-(3, 3), 
model.add(Activation('relu!)) 
model.add(MaxPooling2D (pool size-(2, 2), padding-^'same')) 


model. 


model. 
model. 


add(Dropout(0.25)) 


add (Flatten()) 


add(Dense(512, activation-^'relu!)) 


optimizer-'adam'!, 


model.add (Dropout (0.5)) 

model.add(Dense(128, activation='relu')) 
model.add(Dense(n classes, activation='softmax')) 
model.compile(loss-'categorical, crossentropy', 
metrics-['accuracy!']l) 

model.summary() 


6) 定义 一 个 回调 函数 来 防止 过 上 度 配 合 : 


callbacks = 


[EarlySstopplng(monltors" val acc', 


verbose-1)] 


7) 设置 网 络 超 参数 、 


batch_size = 
n_epochs = 


20 
300 


8) 接 下 来 ， 训 练 第 一 个 模型 : 


history - 
epochs-n, epochs, 


model.fit(X train, 
verbose-1, 


y train, 


callbacks-callbacks) 


9) 现在 ,把 批量 标准 化 添加 到 网 络 体系 结构 中 : 


model bn = 


model bn.add(Conv2D(32, 
input shape-input shape, 


Sequential () 


kernel_size=(3, 3), 
padding='same')) 


patience=5, 


batch_size=batch_size, 
validation_data=(X_val, 


y_val), 


model bn.add (Activation('relu"')) 
model bn.add(BatchNormalization()) 


model bn. 
model bn. 
model bn. 
model bn. 


model bn. 


model bn. 
model bn. 
model bn. 
model bn. 
model bn. 
model bn. 
model. bn. 


model bn. 


model. bn. 
model, bn. 
model. bn. 
model. bn. 
model, bn. 
model. bn. 
model. bn. 


model bn. 


model. bn. 
model. bn. 
model. bn. 
model. bn. 
model. bn. 
model. bn. 


model. bn 
metrics- 
model bn 


第 3 章 
卷 积 神经 网 络 


add (Conv2D (32, kernel size-(3, 
add(Activation('relu!')) 

add (BatchNormalization()) 

add (MaxPooling2D (pool, size-(2, 


padding-2'same')) 


padding-2'same')) 
add (Dropout (0.25) ) 


add(Conv2D(64, kernel size-(3, 
add(Activation('relu!')) 

add (BatchNormalization()) 
add(Conv2D(64, kernel size-(3, 
add(Activation('relu!)) 

add (BatchNormalization()) 

add (MaxPooling2D (pool. size-(2, 


padding-2'same')) 


padding-^'same')) 


padding-^'same')) 
add (Dropout(í(0.25)) 


add(Conv2D(128, kernel size-(3, 
add(Activation('relu')) 

add (BatchNormalization()) 
add(Conv2D(128, kernel size-(3, 
add(Activation('relu')) 

add (BatchNormalization()) 

add (MaxPooling2D (pool. size- (2, 


3), padding-'same!)) 


3), padding-'same!)) 


2), padding-'same')) 


add (Dropout (0.25)) 


add (Flatten()) 

add(Dense(512, activation-^'relu!)) 
add (BatchNormalization()) 
add(Dropouti(u.5)») 


add(Dense(128, activation-'relu!)) 

add(Dense(n classes, activation-'softmax!)) 
.compile(loss-'categorical crossentropy', optimizer-'adam, 
['accuracy'!)j 

.Summary () 


10) 现在 准备 对 批量 归 一 化 的 模型 进行 训练 : 


history bn 


11) 绘制 两 个 模型 的 验证 精度 来 比较 性 


— model bn.fit(X train, y train, 
batch size-batch size, 
epochs-n epochs, 
verbose-1, 
validation, data- (X val, y val), callbacks-callbacks) 


Sb 
HE : 
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val acc bn = history bn.history['val, acc'] 

val acc = history.history['val, acc'!] 

plt.plot(range(len(val, acc)), val, acc, label-'CNN model') 
plt.plot(range(len(val acc bn)), val acc bn, label-2'CNN model with 
BN') 

plt.title('Validation accuracy on Cifar10 dataset') 
plt.xlabel('epochs') 

plt.ylabel('accuracy!') 

plt.legend() 

plt.show() 


两 个 模型 的 结果 如 图 3.4 所 示 。 


在 CIFAR10 数 据 集 上 的 验证 精度 


一 一 CNN 模型 
CNN BN 模型 


迭代 周期 
图 3.4 对 比 具 有 和 不 具有 批量 归 一 化 方法 模型 的 验证 精度 


正如 所 看 到 的 ， 具有 批量 标准 化 的 模型 在 多 个 周期 之 后 在 验证 精度 上 领 完 ， 并 且 领 完 
于 没有 批量 标准 化 的 模型 ， 最 高 验证 精度 为 84.16% ， 而 没有 批量 标准 化 的 模型 的 验证 精度 
为 83.19%。 批 量 归 一 化 的 模型 也 收 钱 得 很 快 (26 个 周期 对 比 40 个 周期 ) 然而 ， 每 个 周期 
25s， 批 量 标准 化 的 模型 比 没有 批量 标准 化 的 模型 (17s ) 要 少 一 个 周期 。 


3.5 理解 填充 和 步 长 

到 目前 为 止 ， 已 经 使 用 网 络 的 默认 步 长 唯一 。 这 表示 模型 将 对 每 个 轴 上 一 个 输入 进行 
PR ( 步 长 为 1 )。 但 是 ， 当 数据 集 在 像素 级 别 上 包含 较 少 的 粒度 信息 时 ， 可 以 尝试 用 更 大 
的 值 作为 步 长 。 通 过 增加 步 长 ， 卷 积 层 在 每 个 轴 上 跳 过 更 多 的 输入 变量 ， 因 此 减少 了 可 训 
练 参 数 的 数量 。 这 可 以 加 速 收敛， 而 不 会 有 太 大 的 性 能 损失 。 

另 一 个 可 以 调整 的 参数 是 填充 。 填 充 定义 了 如 何 处 理 输入 数据 ( 例如 图 像 ) 的 边界 。 
如 果 没 有 添加 填充 ， 则 只 包含 边界 像素 ( 在 图 像 的 情况 下 )。 因 此 ， 如 果 期 望 边界 包含 有 价 
值 的 信息 ， 可 以 尝试 向 数据 添加 填充 。 这 增加 了 可 以 在 数据 上 进行 卷 积 时 使 用 的 虚拟 数据 
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的 边界 。 使 用 填充 的 好 处 是 数据 的 维度 在 每 个 卷 积 层 上 保持 相同 ， 这 意味 春 可 以 将 更 多 的 


郑 积 层 合 加 在 一 起 。 在 图 3.5 中 ， 可 以 看 到 带 有 和 零 盾 充 的 步 长 为 1 的 示例 ， 以 及 市 有 填充 的 


步 长 为 2 的 示例 。 


图 3.5 左 图 :5 x5 的 输入 图 像 ， 市 有 步 长 为 1 MFAT; 右 图 :5 x5 的 输入 图 像 ， 步 长 为 2， 填 充 相同 


对 于 填充 和 步 长 选择 值 没 有 一 般 的 规则 。 这 在 很 大 程度 上 取决 于 数据 的 大 小 和 复杂 性 ， 
以 及 所 使 用 的 潜在 预 处 理 技术 。 接 下 来 ， 将 尝试 不 同 的 步 长 和 填充 设置 ， 并 比较 模型 的 结 
果 。 使 用 的 数据 集 包 含 猫 和 和 狗 的 图 像 ， 要 执行 的 任务 是 对 动物 进行 分 类 。 


如 何 去 做 … 


1) 导入 所 有 必要 的 函数 库 ， 如 下 所 未 : 


import glob 


import numpy as np 


import cv2 


from matplotlib import pyplot as plt 
from sklearn.model selection import train test split 


from keras 
from keras 
from keras 
Lambda 

from keras 
from keras 
from keras 


SEED = 2017 


.utils import np utils 
.models import Sequential 
.layers.core import Dense, Dropout, Activation, Flatten, 


.optimizers import Adam 
.callbacks import EarlyStopping 
.layers import Conv2D, MaxPooling2D 
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2 ) 加 载 文件 名 并 输出 训练 集 大 小 : 


# 指定 数据 目录 、 提 取 两 类 全 部 模式 文件 名 
DATA DIR = 'Data/PetImages/' 
cats = glob.glob (DATA DIR + "Cat/*.jpg") 
dogs = glob.glob(DATA DIR + "Dog/*.jpg") 


print('4Cats: {}, #Dogs: í)'.format(len(cats), len(dogs))) 


4 #Cats: 12500, 4 Dogs: 12500 


3) 为 了 更 好 地 理解 数据 集 ， 绘 制 每 个 类 中 的 三 个 例子 ， 如 图 3.6 所 示 。 


n_examples = 3 
plt.figure(figsize-(15, 15)) 
i = 1 
for _ in range (n, examples): 
image cat = cats[np.random.randint (len(cats))] 


img cat = cv2.imread(image cat) 


img cat = cv2.cvtColor(img cat, cv2.COLOR BGR2RGB) 


plt.subplot(35, 2, 1) 

_ = plt.imshow(img. cat) 

i += 1 

image dog = dogs[np.random.randint (len(dogs))] 
img dog = cv2.imread(image dog) 


img dog = cv2.cvtColor(img dog, cv2.COLOR BGR2RGB) 


plt.subplot(3, 2; 1) 

i += 1 

_ = plt.imshow (img dog) 
plt.show() 


0 100 200 300400 


图 3.6 具有 猫 和 狗 标签 的 示例 图 像 
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4 ) 将 数据 集 划 分 成 一 个 训练 集 和 一 个 测试 集 ， 如 下 所 示 : 


dogs train, 
cats, 


dogs, val, 
test size-0.2, 


cats train, cats val - 
random state-SEED) 


train, test split (dogs, 


5) 训练 集 比较 大 ， 使 用 批 生 成 带 ， 这 样 就 不 必 在 内 存 中 加 载 所 有 图 像 : 


def batchgen (cats, 
# G^: numpy 数组 
batch images = 
batch label - 


dogs, batch size, img size-50): 
np.zeros((batch size, 


np.zeros (batch, size) 


img size, img size, 3)) 


# 创建 批量 样本 生成 器 
while 1: 
n= 0 
while n < batch size: 
# 随机 挑选 一 张 狗 或 猫 图 像 
if np.random.randint (2) -- 
np.random.randint (len (dogs)) 
img = cv2.imread(dogs[i]) 
if img is None: 
break 
img = cv2.cvtColor(img, cv2.COLOR BGR2RGB) 
# 图像 具有 不 同 的 维度 ， 需 要 全 部 归 整 到 100 x 100 
img = cv2.resize(img, (img. size, 
interpolation = cv2.INTER, AREA) 
y = 1 


E 


img size), 


else: 


img = 
if img is 

break 
img = cv2 
img = cv2 


interpolation - 


y = 0 


batch images[n] = 


cv2.imread(cats[i]) 


None: 
.cvtColor(img, cv2.COLOR BGR2RGB) 
.resize(img, (img size, img. size), 


CV2.INTER, AREA) 


img 


batch label[n] = y 
nt-1 


yield batch images, batch label 


6) 接 下 来 ,定义 一 个 函数 ， 为 步 长 和 填充 创建 一 个 给 定 参 数 的 模型 . 
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def create model(stride-1, padding-^'same', img size-100): 
# 定义 结构 
model = Sequential() 
model.add(Lambda(lambda x: (x / 255.) - 0.5, 
input shape-(img size, img size, 3))) 
model.add(Conv2D(32, (3, 3), activation^-"'relu', 
padding-padding, strides-stride)) 
model.add(Conv2D(32, (3, 3), activation-^'relu', 
padding-padding, strides-stride)) 
model.add(MaxPooling2D (pool. size-(2,2))) 
model.add (Dropout (0.5)) 
model.add(Conv2D(64, (3, 3), activation='relu', 
padding=padding, strides=stride)) 
model.add(Conv2D(64, (3, 3), activation='relu'!, 
padding=padding, strides=stride)) 
model.add (Dropout (0.5)) 


model.add(Flatten()) 

model.add(Dense(64, activation-^'relu')) 

model.add (Dropout (0.5)) 

model.add(Dense(1, activation='sigmoid')) 

opt = Adam(0.001) 
model.compile(loss-'binary crossentropy', optimizer-opt, 
metrics-['binary. accuracy!]) 

return model 


7) 现在 为 每 个 设置 定义 一 个 模型 ， 并且 提 取 可 训练 参数 的 数量 : 


img size = 100 


models = [] 
for stride in [1, 2]: 
for padding in ['same', 'valid']: 
model = create model(stride, padding, img size) 
pars = model.count params() 
models.append(dict(('setting': 'í() í)'.format(stride, 
padding), 
'model': model, 
'parameters': pars 


133 


8) 要 输出 模型 的 方 条 配置 ， 可 按 下 列 步 又 : 


models[O]['model'].summary () 


9) 要 使 用 早 停 技 术 ， 定 义 一 个 回调 函数 如 下 : 
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callbacks = [EarlyStopping (monitor='val_ binary accuracy', 
patience-5)] 


10) 下 一 步 ， 训 练 模型 并 存储 结果 : 


batch size = 512 

n epochs = 500 

validation steps = round((len(dogs val)-*len(cats val))/batch, size) 
Steps per epoch - 

round((len(dogs train)-*len(cats, train))/batch size) 


train generator = batchgen(dogs train, cats train, batch size, 
img size) 
val generator = batchgen(dogs, val, cats val, batch size, img. size) 


history = [] 
for i in range (len (models)): 
print (models [i]) 
history.append( 
models[i]['model'!]. 
fit generator(train, generator, 
Steps per. epoch-steps per. epoch, epochs-n, epochs, 
validation, data-val, generator, 
validation, steps-validation, steps, 
callbacks-callbacks 
) 


11) 可 视 化 结 


for i in range(len(models)): 
plt.plot(range(len(history[i].history['val binary accuracy'])), 
history[i].history['val binary accuracy'], 
label-models[i]['setting']) 
print('Max accuracy model (3j: íj'.format(models[i]['setting!'], 
max(history[i].history['val, binary. accuracy']))) 
plt.title('Accuracy on the validation set') 
plt.xlabel('epochs') 
plt.ylabel('accuracy!') 
plt.legend() 
plt.show() 


通过 使 用 步 长 2， 可 训练 参数 的 数量 明显 减少 ( 当 使 用 填充 值 10 305 697—102 561 时 )。 
对 于 这 个 数据 集 ， 它 显示 出 当 使 用 步 长 值 大 于 1 时 没有 性 能 损失 。 这 是 符合 预期 的 ， 因 为 
使 用 (调整 后 ) 100 x 100 x 3 图像 作为 输入 。 跳 过 每 个 方向 的 像素 不 应 该 太 多 地 影响 性 能 。 
填充 和 步 长 不 同 设置 的 性 能 比较 如 图 3.7 所 示 。 
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验证 精度 


— | same 
| valid 
—— 2 same 
—— 2 valid 
0 10 20 30 40 
迭代 周期 


图 3.7 ”填充 和 步 长 不 同 设置 的 性 能 比较 


3.6 试验 不 同类 型 的 初始 化 

对 CNN 来 说 ， 权 重 和 偏 置 的 初始 化 可 能 是 非常 重要 的 。 对 于 非 沼 深 的 神经 网 络 ， 一些 
初始 化 技术 可 能 导致 由 最 终 层 中 梯度 值 的 大 小 引起 的 梯度 下 降 。 在 下 面 的 方案 中 ， 将 回访 
者 展示 如 何 针 对 一 些 知 名 网 络 使 用 不 同 的 初始 化 ， 并 显示 性 能 的 差异 。 通 过 选择 正确 的 初 
始 化 ， 可 以 加 速 网 络 的 收敛 。 在 下 面 的 方案 中 ， 痛 先 用 流行 的 高 斯 噪声 初始 化 网 络 的 权重 
和 俩 置 ， 平 均值 等 于 零 ， 标 准 偶 置 为 0.01。 之 后 ， 使 用 Xavier 初始 化 ， 还 有 常态 和 均匀 分 
布 方法 ， 以 及 一 些 其 他 流行 的 初始 化 分 布 。 


如 何 去 做 … 
1 ) 导入 所 有 必要 的 函数 库 ， 如 下 : 


import glob 

import numpy as np 

import eve 

from matplotlib import pyplot as plt 

from sklearn.model selection import train test split 


from keras.utils import np utils 

from keras import utils, losses, optimizers 

from keras.models import Sequential 

from keras.layers.core import Dense, Dropout, Activation, Flatten, 
Lambda 

from keras.callbacks import EarlyStopping, ModelCheckpoint 

from keras.layers import Conv2D, MaxPooling2D 


SEED = 2017 


12 


2 ) 开始 加 载 文件 名 并 输出 训练 集 大 小 : 


* 指定 数据 目录 并 提取 两 类 全 部 模式 文件 名 
DATA DIR = 'Data/PetImages/' 


cats = glob.glob (DATA, DIR + "Cat/*.jpg") 

dogs = glob.glob (DATA DIR + "Dog/*.Jjpg") 

print ('#Cats: {}, £$Dogs: í()'.format(len(cats), len(dogs))) 
# 4$Cats: 12500, #Dogs: 12500 


3) 接 下 来 ， 将 数据 集 划 分 成 一 个 训练 集 和 测试 集 : 


random state-SEED) 


cats train, cats val 
cats, test size-0.2, 


dogs train, dogs val, 
train test split (dogs, 


4) 训练 集 比 较 大 ， 使 用 批 生成 带 ， 这 样 束 不 必 在 内 存 中 加 载 所 有 图 像 : 


def batchgen (cats, 
# 创建 空 nmumpy 数 组 
batch images 
batch label 


dogs, batch size, img size-50): 


np.zeros((batch size, 234 


np.zeros (batch size) 


img size, img size, 


# 目 定义 批 生成 需 
while 1: 
n = 0 
while n < batch size: 
# 随机 挑选 一 张 狗 或 猫 图 像 
if np.random.randint (2) 
i np.random.randint (len (dogs)) 
img cv2.imread(dogs[i]) 
if img is None: 
break 
img cv2.cvtColor(img, cv2.COLOR BGR2RGB) 
# 图 像 具 有 不 同 的 维度 ， 需 要 全 部 归 整 到 100 x100 
img cv2.resize(img, (img size, 
interpolation CV2.INTER AREA) 
y = 1 


img_size), 


else: 
i 


np.random.randint (len (cats)) 


img = cv2.imread(cats[i]) 
if img is None: 
break 
img = cv2.cvtColor (img, cv2.COLOR, BGR2RGB) 
img = cv2.resize(img, (img size, img size), 
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interpolation = cv2.INTER AREA) 


y= 0 
batch_images[n] = img 
batch label[n] = y 
n+=1 
yield batch images, batch label 


5) 接 下 来 ,定义 一 个 函数 来 创建 一 个 模型 ， 给 定 步 长 和 填充 参数 值 : 


def create_model (init_type='xavier', img size- 


# 定义 结构 

model = Sequential() 
model.add(Lambda(lambda x: (x / 255.) - 0 
input shape-(img size, img size, 3))) 


100): 


«y 


model.add(Conv2D(32, (3, 3), activation-^'relu', 


init-init type)) 


model.add(Conv2D(32, (3, 3), activation-^'relu', 


init-init type)) 
model.add(MaxPooling2D (pool, size-(2,2))) 
model.add (Dropout (0.5)) 


model.add(Conv2D(64, (3, 3), activation='relu', 


init=init_type)) 


model.add(Conv2D(64, (3, 3), activation='relu'!, 


init=init_type)) 


model .add (Dropout (0.5)) 
model.add(Flatten()) 

model.add(Dense(64, activation='relu'!)) 
model.add (Dropout (0.5)) 
model.add(Dense(1, activation='sigmoid')) 


sgd = optimizers.Adam() 
model.compile(loss-'binary crossentropy', 


metrics-['binary accuracy!']) 


return model 


6) 现在 ， 为 每 个 初始 化 类 型 定义 一 个 模型 : 


optimizer-sgd, 


models = [] 
for init type in ['random uniform', 'glorot, normal', 
'glorot uniform', 'lecun uniform', 'he uniform']: 

model = create model(init type, img size-50) 

models .append (dict ({'setting': 'í)'.format(init type), 


'model': model 


2E. 


7) 尽早 集 止 训练 ， 以 防止 出 现 对 训练 数据 的 过 拟 合 : 
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callbacks = [EarlyStopping (monitor='val binary accuracy', 
patience-3)] 
8) 下 一 步 ， 训 练 模型 并 保存 结果 : 
batch size = 512 
n epochs - 500 
Steps. per epoch = 100 
validation steps = round((len(dogs val)-*len(cats, val))/batch, size) 


train generator = batchgen(dogs train, cats train, batch, size) 
val generator = batchgen(dogs, val, cats, val, batch, size) 


history = [] 
for i in range(len(models)): 
print (models[i]) 
history.append( 
models[i]['model']. 
fit generator (train, generator, 
steps per epoch-steps per epoch, epochs-n, epochs, 
validation data-val, generator, 
validation steps-validation steps, callbacks-callbacks) 


9) nU CLE 3.8): 


for i in range(len(models)): 

plt.plot(range(len(history[i].history['val binary accuracy'])), 
history[iril.history]t*vaL binary accuracy'], 
label-models[i]['setting']l) 

print('Max accuracy model (3j): i(j'.format(models[i]['setting!'], 
max(history[i].history['val, binary accuracy']))) 
plt.title('Accuracy on the validation set!) 

plt.xlabel('epochs') 

plt.ylabel('accuracy') 
plt.legend() 
plt.show() 


正如 读者 所 看 到 的 ， 权 重 的 初始 化 类 型 会 对 结果 产生 影响 。 测 试 所 有 不 同 的 初始 化 
方法 可 能 需要 大 量 的 计算 ， 所 以 往往 不 理想 。 对 于 CNN 来 说 ， 每 个 框架 的 默认 设置 往往 
做 得 很 好 。 对 于 二 维 卷 积 层 ，Glorot 均匀 分 布 权 重 (EPN Xavier 均匀 初始 化 ) 38 H 
EERIE o 
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3.7 ”实现 卷 积 目 动 编码 天 


验证 集 精度 


random uniform 


= glorot normal 


glorot uniform 
lecun uniform 


he uniform 


10 15 20 25 30 
XSAURTUI 


图 3.8 不同 权重 初始 化 设置 的 性 能 比较 


在 前 面 如 何 为 街景 门牌 号 码 数据 集 实现 一 个 上 自动 编码 各 ,取得 了 不 错 的 成 效 ， 但 是 输 
出 肯定 会 需要 改善 。 在 下 面 的 方案 中 ， 将 展示 一 个 卷 积 目 动 编码 大 如 何 产生 更 好 的 输出 。 


如 何 去 做 … 


1) 从 导入 函数 库 开 始 ， 如 下 所 示 : 


import numpy as np 
import scipy.io 


from matplotlib import pyplot as plt 

from keras.utils import np utils 

from keras.models import Sequential, Input, Model 

from keras.layers.core import Dense, Dropout, Activation, Reshape, 


Flatten, Lambda 


from keras.layers import Conv2D, MaxPooling2D, UpSampling2D 
from keras.callbacks import EarlyStopping 


2) 接 下 来 ， 加 载 数 据 集 并 提取 将 在 这 个 方案 中 使 用 的 数据 : 


mat = scipy.io.loadmat('Data/train 32x32.mat') 


mat = mat['X'] 
b, h, d, n = mat.shape 
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3) 在 将 数据 提供 给 网 络 之 前 ， 对 数据 进行 预 处 理 : 

# 转换 全 部 RGB 图 像 到 灰 度 值 

img gray = np.zeros(shape -(n, b, h, 1)) 
def rgb2gray (rgb): 

return np.dot(rgb[...,:3], [0.299, 0.587, 0.114]) 

for i in range (n): 

# 转换 到 灰 度 值 

img = rgb2gray(mat[:,:,:,1]) 

img = img.reshape(1, 32, 32, 1) 

img gray[i,:] = img 
# 标准 化 输入 
img gray = img gray/255. 
4) MENER B frase ris AR : 
img size = Input(shape-(b, h, 1)) 
x = Conv2D(16, (3, 3), activation-'relu', padding-'same') (img size) 
x = MaxPooling2D((2, 2), padding-'same') (x) 
x = Conv2D(8, (3, 3), activation-'relu', padding-^'same'!) (x) 
x = MaxPooling2D((2, 2), padding^-^'same') (x) 
x = Conv2D(8, (3, 3), activation-'relu', padding-'same') (x) 
encoded = MaxPooling2D((2, 2), padding-^'same!') (x) 

= Conv2D(8, (3, 3), activation-'relu', padding-^'same') (encoded) 


= UpSampling2D((2, 2)) (x) 

Conv2D(8, (3, 3), activation-'relu', padding-^'same') (x) 
— UpSampling2D((2, 2)) (x) 

= Conv2D(16, (3, 3), activation-'relu', padding-^'same') (x) 
= UpSampling2D((2, 2)) (x) 

decoded = Conv2D(1, (3, 3), activation-2'sigmoid', 
padding-'same') (x) 


NX OX OX X X 
Il 


autoencoder = Model(img size, decoded) 
autoencoder.compile(optimizer-^'rmsprop', 
loss-'binary crossentropy')£t, metrics-['binary accuracy']) 


# 输出 网 络 概要 


autoencoder.summary () 


5) 接 下 来 ， 定 义 早 俘 技术 的 回调 函数 : 


callbacks = EarlyStopping(monitor-'val loss', patience-5) 


TI 


Python 深度 学 习 实 战 : 
75 个 有 关 神 经 网 络 建 模 、 强 化 学 习 与 迁移 学 习 的 解决 方案 


6) 定义 超 参 数 并 开始 训练 网 络 : 


n epochs = 1000 
batch size - 128 


autoencoder.fit( 
img gray, img. gray, 
epochs-n, epochs, 
batch, size-batch. size, 
shuffle-True, validation split-0.2 
callbacks-callbacks 
) 


7) 存储 解码 图 像 如 下 : 


pred = autoencoder.predict(img gray) 


8) 现在 ， 输 出 一 些 原始 图 像 和 对 应 的 解码 图 像 : 


n=5 
pit.figure(figsize-(15, 5)) 
for i in range(n): 
# 显示 原 值 
ax = plt.subplot(2, n, i + 1) 
plt .imshow (mat [i] .reshape (32, 32), cmapz'gray') 
ax = plt.subplot(2, n, i + 1 + n) 
plt.imshow(pred[i].reshape(32, 32), cmap-'gray") 
plit.show() 


训练 好 的 模型 输出 图 像 如 图 3.9 所 示 。 


图 3.9 ”使 用 卷 积 自动 编码 大 创建 的 原始 和 解码 图 像 的 示例 
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与 第 2 半 的 解码 图 像 相 比 ， 输 出 效果 明显 提高 。 在 第 6 草 生成 对 抗 网 络 中 ， 将 介 
绍 一 种 不 同类 型 的 解码 - 编码 硕 网 络 结构 。 


3.8 ”将 一 维 CNN 应 用 于 文本 

到 目前 为 止 , 已 经 将 CNN 应 用 于 图 像 数 据 。 如 人 简介 所 述 ，CNN 也 可 以 应 用 于 其 他 类 
型 的 输入 数据 。 在 下 面 的 方案 中 ， 将 展示 如 何 将 CNN 应 用 于 文本 数据 。 更 具体 地 说 ， 将 使 
用 CNN 结构 对 文本 进行 分 类 。 与 二 维 图 像 不 同 ， 文 本 具有 一 维 输入 数据 。 因 此 ， 将 在 下 一 
个 方案 中 使 用 一 维 卷 积 图 层 。Keras 框架 使 得 预 处 理 输入 数据 变 得 非常 简单 。 


如 何 去 做 … 
1 ) 开始 导入 函数 库 ， 如 下 所 示 : 


import numpy as np 


from keras.preprocessing import sequence 

from keras.models import Sequential 

from keras.layers import Dense, Dropout, Activation 
from keras.layers import Embedding 

from keras.layers import ConviD, GlobalMaxPooling1D 
from keras.callbacks import EarlyStopping 

from keras.datasets import imdb 


2) 使 用 Keras 的 IMDB 数据 集 ， 用 下 面 的 代码 加 载 数据 : 


n words - 1000 

(X train, y train), (X test, y test) - 
imdb.load data (num words-n words) 
print('Train seq: ()'.format(len(X train))) 
print('Test seq: í)'.format(len(X train))) 


3 ) 输出 显示 一 个 训练 数据 和 测试 数据 的 示例 : 


print('Train example: Mní)'.format(X train[0])) 
print('MnTest example: Mní()'.format(X test[0])) 


# 注意 : 数据 已 经 预 处 理 ( 字 词 映射 到 矢量 ) 


4 ) 通过 填充 序列 ， 为 网 络 准 备 输入 : 
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+ 序列 填充 长 度 max_len 


max len = 200 
X train = sequence.pad sequences(X train, maxlen-max len) 
X test = sequence.pad sequences (X test, maxlen-max len) 


5) 现在 准备 好 定义 网 络 染 构 : 


* 定义 网 络 腑 构 并 编译 

model = Sequential() 

model.add(Embedding(n words, 50, input length-max len)) 
model.add(Dropout (0.5)) 

model.add(Conv1D(128, 3, padding-'valid', activation-'re 
strides-1,)) 

model.add(GlobalMaxPooling1D()) 

model.add(Dense(250, activation-^'relu')) 
model.add(Dropout (0.5)) 

model.add(Dense(1, activation-'sigmoid!)) 


lu^; 


model.compile(loss-'binary crossentropy', optimizer-'adam', 


metrics-['accuracy!]) 
model.summary () 


6) 定义 一 个 回调 函数 来 防止 过 拟 合 训练 数据 : 


callbacks = [EarlyStopping(monitor-'val acc', patience=3 


7) 定义 超 参数 并 开始 训练 网 络 : 


batch size = 64 
n epochs = 100 


) ] 


model.fit(X train, y train, batch size-batch size, epochs-n, epochs, 


validation split-0.2, callbacks-callbacks) 


8) 最 后 ， 检 查 训练 好 的 网 络 在 测试 集 上 的 性 能 : 


print('MnAccuracy on test set: {}'.format (model.evaluate(X test, 


y- test) [11)) 


# 测试 集 精度 : 0.873 


这 里 使 用 的 人 简单 模型 已 经 能 够 准确 地 对 文本 所 表达 的 情感 进行 分 类 ， 在 测试 集 上 的 精 


度 为 87.3%。 在 第 4 章 中 ， 将 回访 者 展示 如 何 通过 将 CNN 与 RNN 相 
本 分 类 器 的 性 能 。 
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本 章 重 点 介绍 递归 神经 网 络 ( RNN )， 包 括 以 下 内 容 : 
。 实 现 一 个 人 简单 的 RNN ; 

。 添 加 长 短期 记忆 (LSTM); 

。 使 用 门 探 递 归 神 经 元 (GRU ); 

e KNM RNN ; 

。 字 符 级 文本 生成 。 


4.1 简介 

在 本 章 中 ， 将 介绍 一 种 新 型 的 神经 网 络 。 在 此 之 前 ， 只 考虑 信息 在 其 中 单 向 流动 的 神 
经 网 络 。 接 下 来 ， 将 介绍 RNN。 在 这 些 网 络 中 ， 对 于 序列 中 的 每 个 元 素 ， 数 据 的 处 理 方式 
是 相同 的 ， 并 且 输 出 取决 于 先前 的 计算 结果 。 这 种 结构 在 许多 应 用 程序 中 已 被 证 明 是 非常 
强大 的 ， 如 自然 语言 处 理 (NLP ) 和 时 间 序 列 预测 。 本 章 将 介绍 重要 的 构建 模块 ， 它 彻底 
改变 了 如 何 处 理 神经 网 络 中 的 时 间 序 列 或 其 他 形式 序列 数据 的 方式 。 

一 个 简单 RNN 神经 元 ， 如 图 4.1 所 示 。 


图 4.1 TE RNN 神经 元 中 信息 流动 的 示例 
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正如 在 图 4.1 中 所 看 到 的 ，RNN 的 输出 不 仅 依 赖 于 当前 的 输入 城 ， 还 依赖 于 过 去 的 输 
A (Xarlo AE, RAMAR T PIE, 

有 多 种 类 型 的 RNN， MES 能 不 同 。RNN 可 以 有 一 个 输入 变量 和 多 个 
输出 变量 (1 到 n，n>1 )， 多 个 输入 变量 和 一 个 输出 变量 (n 到 1，n>1 )， 或 多 个 输入 和 输 
BUE (nim, Arb, mel), 在 本 书 中 ， 将 涵盖 所 有 类 型 的 变量 。 


4.2 ”实现 一 个 简单 的 RNN 

RN RNN 形式 ， 以 便 理 解 RNN 的 基本 思想 。 在 本 例 中 ， 将 为 RNN 
a 些 变量 表示 了 某 一 天 的 天 气 类 型 。 例 如 ，[1，0，0，0] 表示 晴天 ， 
[1，0， Meroen Arn HE MB dS TUR BERTÉRE HER IL BUXURERE 意 值 。 对 于 这 个 问 
题 来 说 ， 某 一 天 的 降雨 量 也 取决 于 前 一 天 的 降雨 量 数 值 。 这 使 得 这 个 问题 非常 适合 于 4 到 1 
HJ RNN 模型 。 


如 何 去 做 … 
1) 在 这 个 基本 示例 中 ， 将 使 用 NumPy 实现 简单 的 RNN : 


import numpy as np 


2) 从 创建 将 要 使 用 的 虚拟 数据 集 开 始 : 


2x] 
.append([1,0,0,0]) 
.append([0,1,0,0]) 
.append([0,0,1,0]) 
.append([0,0,0,1]) 
.append([0,0,0,1]) 
.append([1,0,0,0]) 
.append([0,1,0,0]) 
.append([0,0,1,0]) 
.append([0,0,0,1]) 


eX ~ x xx (X PX (X vX 


= [0.20, 0.30, 0.40, 0.50, 0.05, 0.10, 0.20, 
.30, 0.40] 


Co 


3 ) 对 于 回归 问题 ， 将 使 用 Sigmoid 22:15 PRA : 


def sigmoid (x): 
return 1 / (1 + np.exp(-x)) 


def sigmoid der (x): 
return 1.0 — x"*2 
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4) 接 下 来 ,初始 化 网 络 层 和 权重 : 


layers = [] 

# 4 个 输入 变量 、1 6 个 隐 层 神经 元 和 1 个 输出 变量 
n units = (4, 10, 1) 

n layers = len(n units) 


layers.append(np.ones (n units[0]-*1-4n units[1])) 
for i in range(1, n layers): 
layers.append(np.ones (n units[il])) 


weights = [] 

for i in range (n layers-1): 
weights.append(np.zeros((layers[i].size, 
layers[i-*1].size))) 


weights delta - [0,]*len(weights) 


5) 现在 已 经 准备 好 定义 正 辣 传 递 的 函数 : 


def forwards (data): 
layers[0][:n units[0]] = data 
layers[0][n units[0]:-1] = layers[1] 


# 前 向 数据 传播 

for i in range(1, n layers): 
layers[i][...] = sigmoid(np.dot(layers[i-1], 
weights[i-1])) 


return layers[-1] 


6) 在 反 回 传递 中 ， 将 确定 误差 图 数 并 更 新 权重 : 


def backwards (target, learning_rate=0.1, momentum=0. 1): 


deltas = [] 
error = target - layers[-1] 
delta = error * sigmoid der(layers[-1]) 


deltas.append (delta) 


# 确定 隐 层 误差 
for i in range(n layers-2, O0, -1): 
delta = np.dot(deltas[0], weights[i].T) * 
sigmoid der(layers[i]) 
deltas.insert(0, delta) 
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# 更 新 权重 

for i in range(len(weights)): 
layer = np.atleast 2d(layers[il]) 
delta = np.atleast 2d(deltas[i]) 
weights, delta temp = np.dot(layer.T, delta) 
weights[i] += learning rate*weights delta temp + 
momentum*weights delta[i] 
weights delta[i] = weights, delta temp 


return (error**2).sum() 


7) 现在 可 以 训练 所 建立 的 简单 RNN T: 


n epochs = 10000 
for i in range (n epochs): 
loss = 0 
for j in range(len(X)): 
forwards (X[jl) 
backwards (yljl) 
loss += (y[jl-forwards (X[j]))**2 
if i1$1000 == 0: print('epoch () - loss: 
(:04.4f)'.format(i, loss[0])) 


8) 最 后 ， 检 查 一 下 结 朵 : 


for i in range(len(X)): 
pred = forwards (X[i]l) 
loss = (y[il-pred)**2 
print('X: ij: y: {:04.2f}; pred: 
(:04.2f)'.format(X[i], yl[il, pred[0])) 


以 上 内 容 的 目的 是 让 读者 熟悉 RNN 和 内 部 结构 。 此 示例 已 经 表明 ， 预 测 值 不 仅 依 赖 于 
当前 输入 数据 ， 而 且 还 依赖 于 序列 中 的 先前 值 。 


4.3 添加 LSTM 

简单 RNN 的 一 个 限制 是 ， 它 只 考虑 当前 输入 变量 周围 的 直接 输入 变量 。 在 许多 应 用 
中 ， 特 别 是 语言 ， 人 们 需要 更 大 程度 地 理解 句子 的 上 上 下文。 这 就 是 为 什么 LSTM (长 短期 
记忆 ) 在 将 次 度 学 习 应 用 于 文本 等 非 结构 化 数据 类 型 方面 发 挥 了 重要 作用 。 一 个 LSTM fü 
经 元 有 一 个 输入 门 、 一 个 遗忘 门 和 一 个 输出 门 ， 如 图 4.2 所 示 。 
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图 4.2 在 LSTM 神经 元 中 信息 流动 的 示例 


下 面 将 使 用 Keras 框架 对 来 自 IMDB 数据 集 的 评论 进行 分 类 。 


如 何 去 做 … 


1) 从 导入 函数 库 开 始 ， 如 下 所 示 : 


import numpy as np 


from keras.preprocessing import sequence 

from keras.models import Sequential 

from keras.layers import Dense, Dropout, Activation 
from keras.layers import Embedding 

from keras.layers import LSTM 


from keras.datasets import imdb 


2) 使 用 来 日 Keras 的 IMDB 数据 集 ， 用 以 下 代码 加 载 数 据 : 


n words = 1000 

(X train, y train), (X test, y test) - 
imdb.load data (num words-n words) 
print('Train seq: ()j'.format(len(X train))) 
print('Test seq: í)'.format(len(X train))) 


3 ) 呈现 一 个 训练 和 测试 数据 示例 : 


print('Train example: \n{}'.format (X_train[0])) 
print ('\nTest example: \n{}'.format (X_test [0] ) ) 


# 注意 : 数据 已 经 预 处 理 
# ( 字 词 映射 到 矢量 ) 
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理 


4 ) 通过 项 充 序 列 ， 为 网 络 准 备 输入 数据 : 


# 填充 序列 长 度 max len 

max len - 200 

X train = sequence.pad sequences(X train, maxlen-max len) 
X test = sequence.pad sequences(X test, maxlen-max len) 


5) 现在 已 经 准备 好 定义 网 络 淋 构 : 


# 定义 网 络 结构 并 编译 

model = Sequential() 

model.add(Embedding(n words, 50, input length-max len)) 
model.add (Dropout (0.2)) 

model.add(LSTM(100, dropout=0.2, recurrent_dropout=0.2)) 
model.add(Dense(250, activation='relu')) 

model.add (Dropout (0.2)) 

model.add(Dense(1, activation='sigmoid')) 


model.compile(loss-'binary crossentropy', 


optimizer-'adam', metrics-['accuracy']) 
model.summary() 


6) 定义 超 参数 并 开始 训练 网 络 : 


batch size = 64 
n epochs = 10 


model.fit(X train, y train, batch size-batch size, 
epochs-n, epochs) 


7) 最 后 ， 可 以 在 测试 集 上 检查 训练 后 网 络 的 性 能 : 


print('MnAccuracy on test set: {}'. 
format (model.evaluate(X test, y test)[1]) 
# 测试 集 精 度 : 0.82884 


对 文本 分 类 ， 模 型 的 测试 精度 低 于 一 维 CNN 网 络 的 测试 精度 。 在 第 8 章 ”自然 语言 处 
中 ， 将 展示 如 何 将 CNN 和 RNN 结合 起 来 创建 一 个 更 强大 的 文本 分 类 网 络 。 


4.4 ”使 用 GRU 


在 RNN 中 经 常 使 用 的 男 一 种 类 型 的 神经 元 类 型 是 GRU， 这 些 神 经 元 实际 上 比 LSTM 


神经 元 简单 ， 因 为 它们 只 有 两 个 门 : 更 新 和 复位 。 更 新 门 决定 内 存 ， 复 位 门将 内 存 与 当前 
输入 相 结 合 。 数 据 流 如 图 4.3 所 示 。 
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图 4.3 在 GRU 中 信息 流动 的 示例 


下 面 将 展示 如 何 将 GRU 合并 到 RNN 架构 中 ， 以 便 将 其 与 Keras 用 于 文本 分 类 。 


如 何 去 做 … 
1) 从 导入 困 数 库 开 始 ， 如 下 : 


import numpy as np 
import pandas as pd 


from keras.preprocessing import sequence 

from keras.models import Sequential 

from keras.layers import Dense, Dropout, Activation 
from keras.layers import Embedding 

from keras.layers import GRU 

from keras.callbacks import EarlyStopping 


from keras.datasets import imdbimport numpy as np 
import pandas as pd 


from keras.preprocessing import sequence 

from keras.models import Sequential 

from keras.layers import Dense, Dropout, Activation 
from keras.layers import Embedding 

from keras.layers import GRU 

from keras.callbacks import EarlyStopping 


from keras.datasets import imdb 


2) 使 用 IMDB 数据 集 来 进行 文本 情感 的 分 类 ， 用 以 下 代码 加 载 数据 : 
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n words - 1000 

(X train, y train), (X test, y test) - 
imdb.load, data (num words-n, words) 
print('Train seq: (j'.format(len(X train))) 
print('Test seq: í)'.format(len(X train))) 


3 ) 通过 填充 序列 ， 为 网 络 准备 输入 数据 : 


# 填充 序列 长 度 max_ len 


max len - 200 
X train = sequence.pad sequences(X train, maxlen-max len) 
X test = sequence.pad sequences(X test, maxlen-max len) 


4) EAERI EWAH : 


F 定义 网 络 架 构 并 编译 

model = Sequential() 

model.add(Embedding(n words, 50, input length-max len)) 
model.add (Dropout (0.2)) 

model.add (GRU (100, dropout=0.2, recurrent_dropout=0.2)) 
model.add(Dense(250, activation='relu')) 

model.add (Dropout (0.2)) 

model.add(Dense(1, activation='sigmoid')) 


model.compile(loss-'binary crossentropy', 
optimizer-'adam', metrics-['accuracy!]) 
model.summary () 


5) 使 用 早 集 方法 来 防止 过 拟 合 : 


callbacks = [EarlyStopping (monitor='val_acc', 
patience-3)] 


6) 定义 超 参数 并 开始 训练 网 络 : 


batch size = 512 
n epochs = 100 


model.fit(X train, y train, batch size-batch size, 
epochs-n epochs, validation split-20.2, callbacks-callbacks) 


7) 最 后 ， 可 以 在 测试 集 上 检查 训练 网 络 的 性 能 : 


88 


第 4 章 
递归 神经 网 络 


print('NMnAccuracy on test set: {}'. 
format (model.evaluate(X test, y test)[1]) 


# 测试 集 精 度 : 0.83004 


4.5 实现 双 回 RNN 


到 目前 为 止 ， 只 考虑 了 网 络 中 单 回 流动 的 信息 。 然 而 ， 有 时 在 两 个 方 回 的 网 络 中 运行 
数据 是 有 益 的 ， 称 这 种 网 络 为 双向 RNN。 在 下 面 的 示例 中 ， 将 实现 与 前 面 所 实现 功能 相同 
的 LSTM 网 络 ， 但 本 次 将 使 用 双向 RNN 来 分 类 情感 


如 何 去 做 … 
1) 从 导入 图 数 库 开 始 ， 如 下 : 


import numpy as np 


from keras.preprocessing import sequence 
from keras.models import Sequential 

from keras.layers import Dense, Dropout, 
Activation, Embedding, LSTM, Bidirectional 
from keras.callbacks import EarlyStopping 
from keras.datasets import imdb 


2) 使 用 来 日 Keras 的 IMDB 数据 集 ， 用 以 下 代码 加 载 数 据 : 


n words = 1000 
(X train, y train), (X test, y test) - 
imdb.load data (num words-n words) 


print('Train seq: í(j'.format(len(X train))) 
print('Test seq: (j'.format(len(X train))) 


3 ) 呈现 一 个 训练 和 测试 数据 的 输出 示例 : 
print('Train example: Mní)'.format(X train[0])) 


print ('\nTest example: Mní()'.format(X test[0])) 


OX: 数据 已 经 预 处 理 (学 词 映射 到 矢量 ) 


4 ) 通过 项 充 序 列 ， 为 网 络 准备 输 入 数据 : 
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# 填充 序列 长 度 max_ len 


max len = 200 

X train = sequence.pad, sequences 
(X train, maxlen-max len) 

X test - sequence.pad sequences 


(X test, maxlen-max len) 


5) MEC AEREA : 


# 定义 网 络 染 构 并 编译 

model = Sequential() 

model.add(Embedding(n words, 50, input length-2max len)) 
model.add(Dropout (0.2)) 
model.add(Bidirectional(LSTM(100, dropout-20.2, 
recurrent dropout-20.2))) 

model.add(Dense(250, activation-*'relu')) 
model.add(Dropout (0.2)) 

model.add(Dense(1, activation-'sigmoid!)) 


model.compile(loss-'binary crossentropy!, 


optimizer-'adam', metrics-['accuracy!]) 
model.summary () 


6) 为 了 防止 过 拟 合 ， 将 使 用 早 集 方法 : 
callbacks = [EarlyStopping (monitor='val_acc', patience-3)] 


7) 定义 超 参数 并 开始 训练 网 络 : 


batch size = 1024 
n epochs = 100 


model.fit(X train, y train, batch size-batch size, epochs-n epochs, 
validation split-0.2, callbacks-callbacks) 


8) 最 后 ， 可 以 在 测试 集 上 检查 训练 网 络 的 性 能 : 


print('Accuracy on test set: {}'.format (model.evaluate(X test, 
y test, batch size-batch size)[1])) 


# 测试 集 精度 : 0.8391600004386902 


正如 所 看 到 的 ， 网 络 可 以 在 两 个 方 辐 上 从 解析 数据 中 检索 数据 ， 这 使 得 测试 精度 可 些 


微 提 高 到 83.9196. 
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RNN 不 仅 能 够 对 文本 进行 解析 和 分 类 ， 还 可 以 用 来 生成 文本 。 在 最 简单 的 形式 中 ， 文 
本 是 以 字符 级 别 生成 的 。 更 具体 地 说 ， 文 本 是 逐个 字符 生成 的 字符 。 在 生成 文本 之 前 ， 需 
要 训练 一 个 完整 句子 的 解 但 硕 。 通 过 在 解 但 希 中 包含 一 个 GRU 层 ， 模 型 不 仅 依赖 于 先前 
的 输入 ， 而 且 根 据 周 围 的 上 下 文 答 试 预测 下 一 个 字符 。 在 下 面 的 方案 中 ， 将 演示 如 何 使 用 

PyTorch 实现 一 个 字符 级 的 文本 生成 硕 。 


如 何 去 做 … 
1) 从 导入 六 数 库 开 始 ， 如 下 : 


import unidecode 
import string 
import random 
import math 


import torch 
import torch.nn as nn 
from torch.autograd import Variable 


2) 作为 输入 和 输出 ， 可 以 使 用 任意 字符 : 


all characters = string.printable 
input size = len(all. characters) 
output size - input size 


print (input, size) 


3 ) 将 使 用 奥巴马 演讲 数据 集 : 


filename = 'Data/obama.txt' 
data = unidecode.unidecode (open(filename).read()) 
len data = len (data) 


4) 在 继续 之 前 ， 需 要 定义 超 参 效 : 


n steps = 2000 

batch size = 512 
hidden size - 100 

n layers = 2 
learning rate = 0.01 
len text - 200 
print, every = 50 
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5) 定义 一 个 函数 ， 它 将 字符 转换 为 张 量 : 


def char to tensor(string): 
tensor = torch.zeros(len(string)).long() 
for c in range(len(string)): 
try: 
tensor[c] = all_characters. 
index (string[c]) 
except: 
continue 
return tensor 


6) PK, XEL— TP IERETRUE NA : 


def batch gen(length text, batch size): 
X = torch.LongTensor(batch size, length text) 
y = torch.LongTensor(batch size, length text) 
for i in range (batch, size): 
Start index = random.randint 
(0, len data - length text) 
end index = start index + length text + 1 


text - data[start index:end index] 
X[i] » char to tensor(text[:-1]) 
y[i] = char to tensor(text[1:]) 


= Variable(X) 
— Variable(y) 
= X.cuda() 
= y.cuda() 
return X, y 


K AXK x 


7) 现在 已 经 准备 好 定义 网 络 架 构 : 


class create model (nn.Module): 

def | init (self, input, size, hidden, size, 

output size, n layers-1): 
super(create model, self). init  () 
self.input size = input size 
self.hidden size - hidden size 
self.output size = output size 
self.n layers = n layers 


self.encoder = nn.Embedding(input size, hidden size) 
self.rnn = nn.GRU(hidden size, hidden size, n layers) 


self.decoder = nn.Linear(hidden size, output, size) 


def forward(self, input, hidden): 


batch size = input.size(0) 

encoded = self.encoder (input) 

output, hidden = self.rnn(encoded.view(1, 

batch size, -1), hidden) 

output = self.decoder(output.view(batch size, -1)) 


return output, hidden 
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def init hidden(self, batch size): 
return Variable(torch.zeros 
(self.n layers, batch size, self.hidden size)) 


8) RERBA HE E X ULTOS PIRA PRAG, AH: 


decoder model = create modelq( 
input size; 
hidden size, 
output size, 
n layers-n layers, 


opt = torch.optim.Adam(decoder model.parameters(), 
lr-learning. rate) 
loss = nn.CrossEntropyLoss () 


decoder model.cuda() 


9) 再 创建 一 个 函数 用 于 在 训练 过 程 中 生成 文本 : 


def generate text(decoder, start-'The', predict len-100): 
hidden = decoder.init hidden(1).cuda() 
prime input - 

Variable (char. to tensor(start).unsqueeze(0)).cuda() 
predicted = start 


for p in range(len(start) - 1): 
., hidden = decoder(prime input[:, p], hidden) 
X — prime input[:,-1] 
for p in range(predict len): 
output, hidden = decoder(x, hidden) 
output dist = output.data.view(-1).div(0.8).exp() 
# 添加 一 些 随机 性 
top i = torch.multinomial (output_dist, 1)[0] 
predicted char = all, characters[top i] 
predicted += predicted, char 
x = Variable(char. to tensor(predicted char). 
unsqueeze (0)).cuda() 
return predicted 


10) 最 后 ， 开 始 网 络 训练 : 
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loss. avg = 0 
for i in range (n steps): 
X, y = batch gen(len text, batch size) 
hidden = decoder model.init hidden (batch size).cudaY() 
decoder model.zero grad() 
loss total = 0 


for c in range(len text): 
output, hidden = decoder, model(X[:,c], hidden) 
loss total += loss(output.view(batch size, -1), 
yl:,cl) 


loss total.backward() 

opt.step() 

loss value = loss total.data[0] / len text 
loss, avg += loss, value 


if i $ print, every == 
print('Epoch (): loss {}'.format (i, loss avg)) 
print (generate text (decoder model, 
"Ihe',. 100), TAn?) 


在 本 章 中 ， 介 绍 了 RNN 和 一 些 在 RNN 中 使 用 的 最 流行 的 技术 ， 还 展示 了 一 些 RNN 
的 应 用 。 在 第 5 半 中 ， 将 癌 读 者 展示 如 何 将 这 些 网 络 应 用 于 更 高 级 别 的 问题 。 
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在 本 章 中 ， 将 重点 讨论 强化 学 习 ， 涵 盖 以 下 主题 : 
。 实 现 东 略 梯度 ，; 
。 实 现 深 上 度 OQ 学 习 算 法 。 


5.1 简介 

到 目前 为 止 ， 已 经 讨论 了 监督 学 习 和 非 监督 学 习 技 术 。 机 器 学 习 的 第 三 个 支柱 是 强化 
学 习 (RL) 在 强化 学 习 中 ,任务 既 不 是 监督 的 ， 也 不 是 非 监督 的 。 具 体 地 说 ， 在 RL 中 ， 
智能 体 在 接收 观测 数据 时 有 一 个 最 终 目 标 ， 但 在 每 一 步 都 不 会 收 到 环境 的 反馈 。 相 反 ， 只 
有 在 一 定数 量 的 步骤 之 后 ， 智 能 体 才 会 得 到 积极 或 消极 的 奖励 。 这 很 有 趣 ， 因 为 有 人 可 能 
会 说 ， 对 于 某 些 任务 ， 这 和 人 类 学 习 的 方式 是 一 样 的 。 是 什么 使 得 这 类 问题 比 正常 的 监督 
学 习 问 题 更 加 复杂 呢 ? 就 是 人 们 没有 明确 地 指出 ， 在 前 一 个 步骤 中 的 哪 一 个 动作 引起 了 对 
期 望 值 的 奖励 ， 这 就 是 所 谓 的 信用 分 配 问 题 。 

RL 是 当今 的 一 个 热门 话题 ， 因 为 在 这 个 领域 已 经 取得 了 很 大 的 进步 。 此 外 ， 这 些 算 
法 所 解决 的 问题 也 很 有 趣 ， 而 且 在 视觉 上 很 有 吸引 力 。 例 如 ,使 用 RL， 计 算 机 可 以 自学 游 
戏 ， 而 不 需要 显 式 地 指定 它 应 该 执行 的 步 又 。 
强化 学 习 是 一 项 计算 昂贵 的 任务 。 这 意味 着 ， 在 获得 有 价值 的 结果 之 前 ， 通 常 | 
需要 长 时 间 运 行 算法 。 | 


5.2 ”实现 策略 梯度 

在 强化 学 习 中 ， 不 能 下 接 在 网 络 中 反问 传播 误差 .， 因 为 没有 为 每 一 步 设 置 一 个 真 值 。 
现在 只 感知 到 外 界 反 馈 ， 这 也 就 是 为 什么 需要 策略 梯度 把 奖励 传播 回 网 络 。 确 定 最 佳 操作 
的 规则 称 为 策略 。 学 习 这 些 策 上 略 的 网 络 称 为 策略 网 络 ， 这 可 以 是 任何 类 型 的 网 络 ， 例 如 一 
个 简单 的 双 层 FNN 或 CNN。 环 境 越 复 杂 ， 就 越 能 从 复杂 的 网 络 中 获 益 。 在 使 用 策略 梯度 
时 ， 将 绘制 策略 网 络 的 输出 分 布 。 因 为 奖励 并 不 总 是 直接 可 用 ， 所 以 认为 这 个 行为 是 正确 
的 。 之 后 ， 将 折扣 奖励 作为 标量 ， 并 将 其 反 回 传播 到 网 络 权 重 。 

在 下 面 的 内 容 中 ， 将 通过 在 TensorFlow 中 实施 一 个 策略 梯度 ， 教 给 一 个 乔 能 体 在 
OpenAI 中 玩 游戏 Pongo Pong 是 一 个 很 好 玩 的 游戏 ， 因 为 它 很 便 单 ( 两 个 动作 ， 即 咎 上 或 
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辐 下 ， 如 末 排 除 掉 什么 虱 不 做 选项 )， 这 很 容易 形象 化 ， 并 且 有 一 个 直接 的 奖励 《如 果 智 能 
体 顾 了 游戏 +1 分 ， 如 果 智 能 体 输 掉 了 游戏 -1 分 )。 在 这 个 版 本 的 Pong 游戏 中 ， 要 玩 到 其 
中 一 个 玩家 万 了 21 盘 〈 称 为 一 局 )。 人 们 乔 望 智能 体 以 最 高 的 分 数 最 得 一 场 比赛 : 21 : 0。 


准备 
在 开始 实施 方案 之 前 ， 确 保安 装 了 OpenAI Gym 环境 。 按 照 网 站 上 的 说 明 进 行 操 作 :: 


https : /gym.openai.com/docs/。 当 在 服务 大 上 运行 Gym 时 ， 需 要 连接 一 个 虚拟 显示 硕 。 


如 何 去 做 … 
1 ) 首先 导入 必要 的 函数 库 ， 如 下 : 


import numpy as np 

import gym 

import tensorflow as tf 

import matplotlib.pyplot as plt 


2) 建立 一 个 Pong 环境 ， 并 绘制 出 一 个 框 染 ( 见 图 5.1): 
0 

25 

50 

75 

100 

125 


150 


0 50 100 150 


图 5.1 Pong 游戏 的 OpenAI 框架 


env = gym.make("Pong-v0O") # environment info 
observation = env.reset() 


for i in range(22): 


# 20 wi RER 


1t T > 20; 
plt.imshow (observation) 
plt.show() 

# 得 到 下 一 个 观察 

observation, , _, = env.step(1) 
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3) 在 实现 算法 之 前 ， 需 要 一 个 函数 预 处 理 输入 数据 : 


def preprocess_frame (frame): 
# 移 去 图 像 项 部 和 某 些 背景 
frame - frame[35:195, 10:150] 
# 图 像 帧 灰 度 化 并 缩小 1/2 


frame = frame[::2, ::2, 0] 
# 设置 背景 值 为 0 

frame[frame == 144] = 0 
frame[frame == 109] = 0 

# 设置 球 及 折 数 为 1 

frame[frame != 0] = 1 


return frame.astype(np.float).ravel() 


4) 看 看 预 处 理 数 据 是 什么 样子 〈 见 图 5.2 ): 


obs, preprocessed = preprocess frame(observation). 
reshape(80, 70) 

plt.imshow(obs preprocessed, cmap-'gray!) 
plt.show() 


5) 为 了 从 游戏 中 提取 时 间 人 信息， 使 用 了 两 个 连续 帧 之 间 的 差异 ( 见 图 5.3 ): 


0 20 40 60 0 20 40 60 


图 5.2. Pong 预 处 理 框架 ( 重 塑 到 二 维 空间 ) 图 5.3 ”两 个 连续 的 Pong 之 间 的 区 别 〈 重 塑 到 二 维 空 间 ) 


observation next, , , _ = env.step(1) 

diff = preprocess, frame (observation, next) 一 
preprocess frame(observation) 
plt.imshow(diff.reshape(80, 70), cmap='gray') 
plt.show() 


6) 现在 开始 实施 一 个 三 层 网 络 模型 。 从 定义 权重 开始 : 
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input dim = 80*70 

hidden L1 = 400 

hidden L2 = 200 

actions = [1, 2, 3] 

n actions - len(actions) 

model = 4} 

with tf.variable scope('L1',reuse-False): 
init W1 = tf.truncated normal initializer 


(mean=0, stddev-1./np.sqrt (input dim), 
dtype-tf.float32) 

model['W1'] = tf.get. variable("W1", 

[input dim, hidden, L1], initializer-init W1) 


with tf.variable scope('L2',reuse-False): 
init W2 = tf.truncated normal initializer 
(mean=0, stddev-1./np.sqrt (hidden L1), 
dtype-tf.float32) 
model['W2'] = tf.get. variable("W2", 
[hidden L1, n actions], initializer-init W2) 


7) BE PORE, HRE 9L— I PRX : 


def policy. forward(x): 
x = tf.matmul(x, model['W1']) 


x — tf.nn.relu(x) 
X = tf.matmul(x, model['W2']) 
p = tfuomssottmaxtix) 


return p 


8) 对 于 此 算法 ， 需 要 定义 折扣 奖励 的 函数 : 


def discounted rewards (reward, gamma): 


discounted function - lambda a, v: 
a*gamma 十 v; 
reward reverse = tf.scan(discounted function, 


tf.reverse(reward, [True, False])) 

discounted reward = tf.reverse(reward reverse, 
[True, False]) 

return discounted reward 


9) 在 继续 之 前 ， 需 要 定义 超 参 效 : 


learning rate = 0.001 
gamma = 0.99 
batch size = 10 


10 ) 必须 通过 定义 占 位 符 来 单独 设置 反 向 更 新 : 


# 定义 TensorFlow 占 位 符 

episode x = tf.placeholder (dtype=tf.float32, 
shape-[None, input dim]) 

episode y = tf.placeholder (dtype-tf.float32, 
shape-[None, n actions]) 

episode reward = tf.placeholder (dtype-tf.float32, 
shape-[None, 1]) 


episode discounted reward = discounted rewards 
(episode reward, gamma) 

episode mean, episode variance- 
tf.nn.moments (episode discounted reward, 

[0], shift-zNone) 


# 标准 化 折扣 后 的 收益 

episode discounted reward -= episode mean 
episode discounted reward /- 
tf.sqrt(episode variance + 1e-6) 


* 优化 器 设 定 

tf aprob = policy forward(episode x) 

loss = tf.nn.12 loss(episode y - tf aprob) 
optimizer = tf.train.AdamOptimizer(learning rate) 
gradients - optimizer.compute gradients(loss, 

var list-tf.trainable variables(), 

grad loss-episode discounted reward) 

train op = optimizer.apply gradients (gradients) 


# 图 形 初始 化 
Sess — tf.InteractiveSession() 
tf.global variables initializer().run() 


# 训练 模型 存储 设 定 
Saver = tf.train.Saver(tf.global, variables()) 
save path = 'checkpoints/pong rl.ckpt' 


11) 现在 ， 可 以 初始 化 值 并 运行 算法 : 


obs prev = None 


XS, YS, rS, = [], [], [] 
reward sum = 0 

episode number = 0 
reward window = None 
reward best - -22 
history = [] 


observation = env.reset() 
while True: 

# if True: env.render() 

# URS RBUE MASSEN, AREFE BEE 
# 训练 过 程 随 玩 
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# 预 处 理 观测 值 ， 加 载 不 同 的 图 像 给 网 络 

obs cur = preprocess_frame (observation) 
obs diff = obs cur - obs prev if obs prev 
is not None else np.zeros(input dim) 

obs prev = obs cur 


E 按 策略 采样 一 次 动作 
feed = (episode x: np.reshape(obs diff, (1,-1))] 


aprob = sess.run(tf aprob, feed) ; aprob = aprob[O,:] 
action = np.random.choice (n actions, p-aprob) 
label = np.zeros like(aprob) ; label[action] = 1 


# 返回 环境 动作 并 提取 下 一 个 观测 、 回 报 以 及 状态 
observation, reward, done, info - 
env.step(action-*1) 

reward sum += reward 

# 记录 游戏 历史 

xs.append(obs diff) ; ys.append (label) ; 
rs.append (reward) 


if done: 
history.append(reward sum) 
reward window = -21 if reward window is 


None else np.mean(history[-100:]) 

* 用 存储 值 更 新 权重 

# (更 新 策略 ) 

feed = (episode x: np.vstack (xs), episode y: 
np.vstack(ys), episode reward: np.vstack(rs), } 
. = Ssess.run(train op, feed) 

print('episode [(:2d): reward: (:2.0f]'. 


format (episode number, reward sum)) 


xs, ys, rs = [], [1], [] 

episode number += 1 

observation = env.reset () 

reward sum = 0 

# 10 个 场景 后 存储 最 佳 模型 

if (episode number $ 10 == 0) & (reward window > 


reward, best): 
Saver.save(sess, save path, 
global step-episode number) 
reward best = reward window 
print ("Save best model {:2d}: 
{:2.5f} (reward window)" 
. format (episode_number, reward window)) 


12) 当 算 法 运行 2500 周期 后 ， 可 以 停止 训练 并 绘制 结果 ( 见 图 5.4 ): 
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1500 2000 


图 5.4 ”得 分 数 与 训练 周期 数 


plt.plot (history) 
plt.show() 


13) 最 后 ， 查 看 最 终 模 型 在 OpenAI 的 Gym 中 是 如 何 表 现 的 〈 见 图 5.5 ): 


@ © © /Users/indr... 


图 5.5 训练 策略 梯度 智能 体 


observation = env.reset() 
while True: 
if True: env.render() 


# 预 处 理 观测 值 ， 将 不 同 的 图 像 加 载 给 网 络 

obs cur = preprocess, frame (observation) 

obs diff = obs cur - obs prev if 

obs prev is not None else np.zeros(input dim) 
obs prev = obs, cur 
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# 按 策略 采样 一 次 动作 
feed = (tf x: np.reshape(obs diff, (1,-1))) 


aprob = sess.run(tf aprob, feed) ; aprob = aprob[0,:] 
action - np.random.choice(n actions, p-aprob) 
label = np.zeros like(aprob) ; label[action] = 1 


+ 返回 环境 动作 并 提取 下 一 个 观测 、 回 报 以 及 状态 
observation, reward, done, info = env.step (action+1) 
if done: observation = env.reset f() 


EWAH, EKA REN SH EAE MAX — JRIXLBU. Tu WNR SEDES ER 
查看 智能 体 在 训练 期 间 的 执行 情况 ， 则 可 以 取消 while 循环 中 第 一 行 代码 的 注释 。 这 将 在 训 
练 过 程 中 呈现 每 次 观察 结 朱 。 

改进 前 面 设置 的 选项 之 一 是 调整 网 络 染 构 并 微调 超 参 数 。 一 个 更 复杂 的 网 络 染 构 可 能 
会 有 所 帮助 ， 但 也 会 增加 训练 时 间 。 宽 略 梯度 是 当前 最 流行 的 RL AA, PA m$ om 
的 ， 并 且 在 正确 调 优 时 显示 了 更 好 的 结 


5.3 ”实现 深度 Q 学 习 算法 

男 一 种 流行 的 强化 学 习 方 法 是 0 学习 (Q-Learning). 在 0 学 习 中 ， 并 不 关注 将 观察 
映 冉 到 特定 的 行为 ， 而 是 尝试 将 一 些 值 赋 给 当前 状态 ( 观察 ) 并 根据 该 值 采 取 操 作 。 状 态 
和 行为 可 以 看 作 马 尔 科 夫 决策 过 程 ， 环 境 是 随机 的 。 在 马尔 科 夫 过 程 中 ， 下 一 个 状态 只 取 
决 于 当前 状态 和 后 面 的 操作 。 因 此 ,假设 所 有 以 前 的 状态 ( 和 操作 ) 都 是 无 关 的 。 

0 在 0 学 习 中 代表 品质 ; PRA O (Csa) 为 状态 中 的 操作 a 提供 品质 打分 。 函 数 可 以 
是 任何 类 型 的 。 在 一 个 简单 的 表单 中 ， 它 可 以 是 一 个 查找 表 。 然 而 ， 在 一 个 更 复杂 的 环境 
中 ， 这 是 行 不 通 的 ， 这 就 是 深度 学 习 的 机 理 所 在 。 在 接 下 来 的 内 容 中 ， 将 从 OpenAI 中 实现 
一 个 深度 0 学 习 算 法 来 进行 突破 。 


准备 
在 开始 实施 方案 之 前 ， 确 保安 装 了 OpenAI 的 Gym 环境 。 按 照 网 站 上 的 说 明 操作 : 


https://gym.openai.com/docs/。 当 在 服务 疾 上 运行 Gym 时 ,需要 连接 一 个 虚拟 显示 带 。 


如 何 去 做 … 
1 ) 从 导入 必要 的 函数 库 开始 ， 如 下 : 


import gym 

import random 

import numpy as np 

import matplotlib.pyplot as plt 
from collections import deque 
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from keras 
from keras 
from keras 
from keras 
from keras 


.models import Sequential 
.optimizers import Adam 

.layers import Dense, Flatten 
.layers.convolutional import Conv2D 


import backend as K 


2) 首先 ， 绘制 游戏 的 一 个 输入 图 像 示 例 ( 见 图 5.6 ): 


图 5.6 OpenAI 的 Breakout 示例 输入 图 像 


env = gym.make('BreakoutDeterministic-v4') 


observation 


= env.reset () 


for i in range(3): 
# piti p AER 
LI i > 1: 
print (observation. shape) 
plt .imshow (observation) 
plt.show() 
# 获得 下 一 次 发 球 


observation, _, _, |. env.step(1) 


3) 现在 ， 可 以 定义 一 个 图 数 来 预 处 理 输入 数据 : 


def preprocess frame(frame): 


# 移 除 顶部 帧 以 及 一 些 背景 


frame - 


# 图 像 帧 灰 


frame - 


frame[35:195, 10:150] 


度 化 并 缩小 1/2 
frame[::2, ::2, 0] 


# 设置 背景 为 0 


frame[frame == 144] = 0 
frame[frame -- 109] = 0 
# 球 和 折 数 设 为 1 

frame[frame != 0] = 1 


return frame.astype(np.float).ravel() 


第 5 章 
强化 学 习 


103 


Python 深度 学 习 实 战 : 
75 个 有 关 神 经 网 络 建 模 、 强 化 学 习 与 迁移 学 习 的 解决 方案 


4) 输出 前 面 的 预 处 理 图 像 ， 以 了 解 算 法 将 如 何 处 理 ( 见 图 5.7 ): 


0 20 40 60 


K| 5.7 Breakout 预 处 理 框架 


obs, preprocessed = preprocess_frame (observation) 
plt.imshow(obs preprocessed, cmap-'gray!) 
plt.show() 


5) 为 实现 深度 2 和 学习， 需要 定义 一 个 智能 体 来 执行 大 部 分 任务 : 


class DQLAgent: 
def | init (self, cols, rows, n actions, batch size-32): 

self.state size - (cols, rows, 4) 
self.n actions - n actions 
self.epsilon = 1. 
self.epsilon start, self.epsilon end = 1.0, 0.1 
self.exploration steps - 1000000. 
self.epsilon decay step = (self.epsilon start -一 

self.epsilon end) / self.exploration steps 
self.batch size = batch size 
self.discount factor = 0.99 
self.memory = deque (maxlen-400000) 
self.model = self.build model() 
self.target model = self.build, model() 
self.optimizer = self.optimizer() 
self.avg q max, self.avg loss = 0, O0 


def optimizer(self): 
a = K.placeholder(shape-(None,), dtype-'int32') 
y = K.placeholder(shape-(None,), dtype-'float32') 


py_x = self.model.output 
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a one hot = K.one hot(a, self.n actions) 
q value = K.sum(py x * a one hot, axis-1) 
error = K.abs(y - q value) 


quadratic, part = K.clip(error, 0.0, 1.0) 
linear. part = error - quadratic, part 
loss = K.mean(0.5 * 
K.square(quadratic part) + linear. part) 


opt = Adam(lr-20.00025, epsilon-20.01) 

updates - opt.get updates 
(self.model.trainable weights, [], loss) 
train = K.function([self.model.input, a, yl, 
[loss], updates-updates) 


return train 


def build model (self): 

model = Sequential() 

model.add(Conv2D(32, (8, 8), strides-(4, 4), 
activation-'relu', input shape-self.state size)) 
model.add(Conv2D(64, (4, 4), strides-(2, 2), 
activation-'relu')) 

model.add(Conv2D(64, (3, 3), strides-(1, 1), 
activation-'relu')) 

model.add(Flatten()) 

model.add(Dense(512, activation-^'relu!)) 
model.add(Dense(self.n actions)) 
model.summary() 

return model 


update model (self): 
self.target model.set weights 
(self.model.get weights ()) 


action (self, history): 
history = np.float32(history / 255.0) 


if np.random.rand() <= self.epsilon: 

return random.randrange(self.n actions) 
else: 

q value = self.model.predict (history) 


return np.argmax(q value[0]) 


replay(self, history, action, reward, 

next history, dead): 
self.memory.append((history, action, 
reward, next history, dead)) 


train(self): 
if len(self.memory) « self.batch size: 


return 
if self.epsilon » self.epsilon end: 
self.epsilon -= self.epsilon decay step 


105 


Python 深度 学 习 实 战 : 
75 个 有 关 神 经 网 络 建 模 、 强 化 学 习 与 迁移 学 习 的 解决 方案 


mini batch = random.sample(self.memory, 
self.batch size) 
history = np.zeros((self.batch size, 


self.state size[0], self.state size[1], 
self.state size[2])) 

next history = np.zeros((self.batch, size, 
self.state size[0], self.state size[1], 
self.state size[2])) 
target = np.zeros((self.batch, size,)) 
action, reward, dead = []l, [l, I] 


for i in range(self.batch, size): 


history[i] = np.float32 
(mini. batch[i][0] / 255.) 
next history[i] = np.f10oat32 


(mini batch[i][3] / 255.) 
action.append (mini batch[i][1]) 
reward.append (mini batch[i]I[2]) 
dead.append (mini. batch[i][4]1]) 


target value = self.target model. 
predict (next history) 


for i in range(self.batch size): 


if dead[il: 

target[i] = reward[i] 
else: 

target[i] = reward[i] 十 


self.discount. factor * V 
np.amax(target value[i]) 


loss = self.optimizer([history, action, target]) 
self.avg loss += loss[0] 


6) 接 下 来 ， 设 置 超 参 数 和 一 般 参 数 ， 并 初始 化 智能 体 : 


env = gym.make('BreakoutDeterministic-v4') 


# 整体 设 定 
n warmup steps = 50000 
update model rate - 10000 


cols, rows = 85, 70 

n states - 4 

# 超 参 数 

batch size = 32 

# 初始 化 

agent = DQLAgent (cols, rows, n actions-3) 
Scores, episodes - [], [] 


n steps = 0 
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7) 现在 准备 开始 训练 模型 : 


while True: 
done = False 
dead = False 


Step, score, start_life = 0, 0, 5 
observation = env.reset() 
State = preprocess frame (observation, 


cols, rows) 

history = np.stack((state, state, 
state, state), axis-2) 

history = np.reshape([history], 
(1, cols, rows, n states)) 


while not done: 
# env.render() 

n steps += 1 
step += 1 
# 获取 动作 
action = agent.action(history) 
observation, reward, done, info - 
env.step(action-1) 
# 提取 下 一 状态 
State next - preprocess frame 
(observation, cols, rows) 
State next - np.reshape([state next], 
(1; cols, rows, 1)) 
history next - np.append(state next, 
historv|t,; fy Sy 3*2], Aaxrise3) 


agent.avg q max += np.amax(agent.model 
.predict (history) [0]) 
reward = np.clip(reward, -1., 1.) 


agent.replay(history, action, reward, 

history next, dead) 

agent.train() 

if n steps $ update model rate -- 
agent.update model () 

Score += reward 


if dead: 

dead = False 
else: 

history - history next 
if done: 


print('episode (:2d); score: 

ZO wq It:2f]); L099 1:217; steps 1fr' 
.formatí(n steps, score, 
agent.avg q max / float(step), 
agent.avg loss / float(step), step)) 
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agent.avg q max, agent.avg loss = 0, 0 


# 存储 模型 权重 
if n steps $ 1000 -- 
agent.model.save weights("weights/breakout dql.h5") 


8) 当 算 法 得 分 足够 高 时 ， 可 以 停止 训练 。 
9) 看 看 最 终 模 型 是 如 何 执 行 的 ( I, 5.8 ): 


图 5.8 ”操作 过 程 中 训练 深度 0 学习 智能 体 


env = gym.make ('BreakoutDeterministic-v4') 
agent = DQLAgent(cols, rows, n action-3) 


for i in range(5): 
observation = env.reset() 


State = pre processing(observation, 

cols, rows) 

history = np.stack((state, state, 

state, state), axis-2) 

history = np.reshape([history], (1, cols, 
rows, n states)) 


while not done: 
env.render() 
action = agent.get action(history) 
observe, reward, done, info - 
env.step(í(action-t1) 


与 党 略 梯度 一 样 ， 深 度 O 学 习 实 现 的 网 络 体系 结构 可 以 设置 得 像 人 们 豆 欢 的 那样 复杂 。 
在 更 复杂 的 环境 中 ,采纳 更 复杂 的 网 络 扣 构 足 获得 民 好 结案 的 关键 。 强 化 学 习 是 一 个 令 人 
着 迷 的 领域 。 在 接 下 来 的 内 容 中 ， 特 别 是 在 第 11 草 ”游戏 贸 能 体 和 机 各 人 中， 将 癌 读 者 
展示 如 何 将 强化 学 习 应 用 到 其 他 游戏 和 问题 上 。 此 外 ， 还 将 介绍 一 些 先进 的 搁 术 ,以 及 用 
这 些 技术 加 速 训练 ， 例 如 采用 并 行 化 方法 。 
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本 章 主要 讨论 生成 对 抗 性 网 络 (GAN )， 包 含 以 下 内 容 : 
。 了解 GAN ; 

。 实 现 深度 卷 积 GAN (DCGAN ); 

。 使 用 超 分 辨 率 GAN ( SRGAN ) 来 提高 图 像 分辨 率 。 


6.1 简介 

在 本 章 中 ， 将 介绍 GAN。 就 像 在 自动 编码 姨 网 络 中 一 样 ，GAN 有 一 个 生成 能 网 络 和 
一 个 鉴别 器 网 络 。 然 而 ，GAN 的 机 理 完全 不 同 。 它 代表 着 一 个 无 监督 的 学 习 问 题 ， 在 学 
习 过 程 中 两 个 网 络 相 互 苑 争 ， 同 时 相互 合作 。 重 要 的 是 ， 生 成 右 和 鉴别 絮 不 能 相互 压倒 对 
Fo GAN 背后 的 思想 是 根据 训练 数据 生成 新 的 例子 。 应 用 程序 的 范围 可 以 从 生成 新 的 手写 
MNIST 字符 图 像 到 生成 音乐 。GAN 最 近 受 到 了 很 多 关注 ， 因 为 使 用 它们 的 结果 令 人 着 迷 。 


6.2 了 解 GAN 

了 解 GAN 之 后 ， 再 来 开始 实现 GAN。 确定 GAN 的 样本 质量 很 困难 ， 更 低 的 损失 价值 
并 不 总 是 代表 更 好 的 质量 。 通 常 ， 对 于 图 像 来 说 ， 确 定 质量 的 唯一 方法 是 通过 视觉 检查 生 
成 的 示例 。 可 以 确定 生成 的 图 像 是 否 足 够 真实 ， 或 多 或 少 像 一 个 简单 的 图 灵 测 试 。 在 下 面 
的 内 容 中 ， 将 使 用 著名 的 MNIST 数据 集 和 Keras 框架 来 介绍 GAN., 


如 何 去 做 … 
1 ) 首先 导入 必要 的 函数 库 ， 如 下 所 示 : 


import numpy as np 

from keras.models import Sequential, Model 

from keras.layers import Input, Dense, Activation, Flatten, Reshape 
from keras.layers import Conv2D, Conv2DTranspose, UpSampling2D 

from keras.layers import LeakyReLU, Dropout 

from keras.layers import BatchNormalization 

from keras.optimizers import Adam 

from keras import initializers 
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from keras.datasets import mnist 


import matplotlib.pyplot as plt 


2) 通过 使 用 Keras， 可 以 轻松 地 导入 两 个 数据 集 ， 代 人 码 如 下 : 


(X train, y train), (X test, y test) = mnist.load data() 


img rows, img cols = X train.shape[1:] 


X train = X train.reshape(-1, 
1).astype (np.f10at32)/255. 


img rows*img. cols, 


3) 对 于 GAN， 需 要 定义 三 个 网 络 染 构 。 先 从 discriminator model( 235 ggg 99 ) 开始 : 


def discriminator_model (dropout=0.5): 
model = Sequential() 
model.add(Dense(1024, input dim-784, 

kernel initializer-initializers.RandomNormal(stddev-0.02))) 
model.add(LeakyReLU(0.2)) 
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model. 
model. 
model. 
model. 
model. 
model. 
model. 


add (Dropout (dropout)) 
add (Dense(512)) 

add (LeakyReLU (0.2)) 
add (Dropout (dropout)) 
add (Dense (256)) 

add (LeakyReLU (0.2)) 
add (Dropout (dropout)) 


model.add(Dense(1, activation-'sigmoid!')) 
model.compile(loss-'binary crossentropy', 
return model 


optimizer-adam) 


4) f£ FÆ, XE X. generator model ( /EJN gs PU ): 


def generator, model(): 
model = Sequential() 
model.add(Dense(256, input dim-100, 
kernel initializer-initializers.RandomNormal(stddev-0.02))) 


model. 
model. 
model. 
model. 
model. 
model. 
model. 


add (LeakyReLU(0.2)) 

add (Dense (512)) 

add (LeakyReLU(0.2)) 

add (Dense (1024)) 

add (LeakyReLU (0.2)) 

add (Dense (784, activation-^'tanh!)) 


compile(loss-'binary crossentropy', optimizer-adam) 


return model 


5) 最 后 ， 可 以 创建 网 络 及 其 组 合 : 


discriminator = discriminator. model () 

generator = generator. model () 

discriminator.trainable - False 

gan input - Input (shape-(100,)) 

X = generator (gan input) 

gan output = discriminator (x) 

gan = Model(inputs-gan input, outputs-gan, output) 
gan.compile(loss-'binary. crossentropy', optimizer-'adam') 


6) 在 训练 GAN 之 前 ， 需 要 定义 一 个 函数 来 绘制 生成 的 图 像 : 


def plot images(samples-16, step=0): 
images = generator.predict (noise) 
plt.figure(figsize-(5,5)) 
for i in range(samples): 
plt.subplot(4, 4, i-*1) 
image - images[i, :,] 
image - np.reshape(image, [img rows, img cols]) 
plt.imshow (image, cmap-'gray!) 
pLLt.axist'orr') 
plt.show() 


7) 现在 可 以 开始 训练 了 。 在 训练 模型 时 ， 将 有 如 下 输出 绪 采 〈 见 图 6.1): 


batch size = 32 
n steps - 100000 
plot every - 1000 


noise input = np.random.uniform(-1.0, 1.0, size-[16, 100]) 
for step in range (n, steps): 
noise = np.random.normal(0, 1, size-[batch size, 100]) 
batch = X train[np.random.randint(0, X train.shape[0], 


Size-batch size)].reshape(batch size, 784) 
gen output = generator.predict (noise) 

X — np.concatenate([batch, gen output]) 

y D = np.zeros (2*batch, size) 

y D[:batch size] = 0.9 
discriminator.trainable = True 


loss D = discriminator.train on batch(X, y D) 


noise = np.random.normal(0, 1, size-[batch size, 100]) 
y G = np.ones (batch, size) 
discriminator.trainable = False 
loss, G = gan.train, on batch(í(noise, y. G) 
if step $ plot every -- 
plot images(samples-noise input.shape[0], step-(step-t1)) 
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19 个 迭代 周期 


图 6.1 和 迭代 100000 步 后 生成 图 像 的 例子 


6.3 实现 DCGAN 

在 前 面 的 内 容 中 ， 所 建 网 络 在 儿 个 迭代 之 后 能 够 生成 现实 的 例子 。MNIST 数据 集 具 有 
较 低 的 平移 不 变性 ， 因 此 网 络 更 容易 生成 这 些 示 例 。 在 GAN 早期 ， 网 络 非常 不 稳定 ， 小 的 
变化 可 能 会 破坏 输出 。2016 年 出 现 了 DCGAN, Æ DCGAN 中 ,鉴别 器 和 生成 器 都 是 全 卷 
积 型 的 ， DCGAN 的 输出 已 被 证 明 是 比较 稳定 的 。 在 下 面 的 内 容 中 ， 将 使 用 Fashion-MNIST 
数据 集 来 增加 数据 集 的 复杂 性 ， 并 演示 如 何在 PyTorch 中 实现 DCGAN, 


如 何 去 做 … 
1 ) 首先 导入 必要 的 函数 库 ， 如 下 所 示 : 


import matplotlib.pyplot as plt 
import itertools 


import torch 

import torchon ds nn 

import torch.nn,fuüunctional as F 

import torch.optim as optim 

from torch.autograd import Variable 

from torch.utils.data.dataset import Dataset 


import torchvision.datasets as dset 
import torchvision.transforms as transforms 


2) 9&8. ERIE XENA : 
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class discriminator (nn.Module): 
def _ init (self): 

super (discriminator, self). init  () 
self.convi = nn.Conv2d(1, d, 4, 2, 1, bias-False) 
self.conv2 = nn.Conv2d(d, d*2, 4, 2, 1, bias-False) 
self.conv2 bn = nn.BatchNorm2d(*2) 
self.conv3 = nn.Conv2d(d*2, *4, 4, 2, 1, bias-False) 
self.conv3 bn = nn.BatchNorm2d(*4) 
self.conv4 = nn.Conv2d(d*4, d*8, 4, 2, 1, bias-False) 
self.conv4 bn = nn.BatchNorm2d (d*8) 
self.conv5 = nn.Conv2d(d*8, 3, 4, 1, 0, bias-False) 


def weight init(self, mean, std): 
for m in self. modules: 
normal init(self. modules[m], mean, std) 


def forward(self, input): 
= F.leaky relu(self.conví(input), 0.2) 
= F.leaky relu(self.conv2 bn(self.conv2(x)), 0.2) 
.leaky relu(self.conv3 bn(self.conv3(x)), 0.2) 
= F.leaky relu(self.conv4 bn(self.conv4(x)), 0.2) 
= F.sigmoid(self.convb5(x)) 
return x 


NX X X X 
Hj 


3) 在 前 面 的 图 数 中 ， 使 用 了 normal init KA, HEERA poktSHIE,. TEHEGE X. 
WP: 


def normal init(m, mean, std): 
if isinstance(m, nn.ConvTranspose2d) or isinstance (m, 
nn.Conv2d): 
m.weight.data.normal, (mean, std) 


4) 接 下 来 ， 定 义 生成 内 : 


class generator (nn.Module): 
def _ init (self): 

super (generator, self). init  () 
self.deconvíi = nn.ConvTranspose2d(100, 1024, 4, 1, 0) 
self.deconvíi1 bn = nn.BatchNorm2d(1024) 
self.deconv2 = nn.ConvTranspose2d(1024, 512, 4, 2, 1) 
self.deconv2 bn = nn.BatchNorm2d(512) 
self.deconv3 = nn.ConvTranspose2d(512, 256, 4, 2, 1) 
self.deconv3 bn = nn.BatchNorm2d (2560) 
self.deconv4 = nn.ConvTranspose2d(256, 128, 4, 2, 1) 
self.deconv4 bn = nn.BatchNorm2d(128) 
self.deconv5 = nn.ConvTranspose2d(128, 1, 4, 2, 1) 
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def weight init(self, mean, std): 
for m in self. modules: 
normal init(self. modules[m], mean, std) 


def forward(self, input): 
x = F.relu(self.deconvi bn 
= F.relu(self.deconv2 bn 
.relu(self.deconv3 bn 
= F.relu(self.deconvA4 bn 
= F.tanh(self.deconvb5(x)) 
return x 


self.deconv1(input))) 
self.deconv2 (x))) 
self.deconv3 (x))) 
self.deconv4(x))) 


~ 


MX OX NX 
| 
tj 


5) 为 了 在 训练 中 绘制 多 个 随机 输出 ， 创 建 一 个 函数 来 绘制 生成 的 图 像 : 


def plot output (epoch): 


z = torch.randn((5*5, L00)).vuiew(-1, 100, 1, 1) 
z_ = Variable(z .cuda(), volatile-True) 

G.eval() 

test images = G(z 

G.train() 

Size figure grid = 5 


fig, ax = plt.subplots(size figure grid, size figure grid, 
figsize-(5, 5)) 
for i, j in itertools.product (range (size figure grid), 
range(size figure grid)): 
ax[i, jl.get xaxis().set visible (False) 
ax[i, jl.get yaxis().set visible (False) 


6) 在 接 下 来 的 步骤 中 ， 将 设置 训练 中 使 用 的 超 参 数 。 超 参数 对 GAN 的 结果 有 很 大 的 
影响 。 生 成 希 和 鉴别 希 不 应 该 相互 压倒 对 方 。 批 处 理 大 小 是 GAN 的 一 个 重要 的 超 参 数 。 深 
度 学 习 的 一 个 普 过 规律 是 ， 在 一 定 程度 上 上， 批量 越 大 越 好 。 然 而 ， 对 于 GAN ， 较 小 的 批 处 
理 大 小 有 时 也 可 以 更 好 地 工作 。 


n epochs - 24 
batch size = 32 
learning rate - 0.0002 


7) 对 于 所 建 模 型 ， 将 使 用 Fashion-MNIST 数据 集 ， 并 将 其 加 载 到 以 下 代码 中 . 
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transform - transforms.Compose([transforms.Scale(64), 
transforms.ToTensor(), 
transforms.Normalize((0.5,), 
(09.7) T4 
train dataset = fashion mnist(root-2'./data', 
train-True, 
transform-transform, 
download-True 
) 
train loader = torch.utils.data.DataLoader (dataset-train dataset, 


batch size-batch size, 
shuffle-True) 


8 ) 通过 调用 定义 函数 来 创建 两 个 网 络 ， 然 后 初始 化 权重 : 


generator (128) 

= discriminator(128) 
.weight init (mean=0.0, std=0.02) 
.weight init (mean=0.0, std=0.02) 


IQUA 


9) 接 下 来 ， 需 要 确保 使 用 CUDA : 


G.cuda() 
D.cuda () 


10) 对 于 GAN, MUERTE (BCE ) 损失 函数 : 


BCE loss = nn.BCELoss(í) 


11) 对 于 这 两 个 网 络 ， 需 要 使 用 如 下 配置 来 定义 优化 带 : 


beta 1 = 0.5 
beta 2 = 0.999 
G optimizer = optim.Adam(G.parameters(), lr-learning rate, 


betas-(beta 1, beta 2)) 
D optimizer = optim.Adam(D.parameters(), lr-learning rate/2, 
betas-(beta 1, beta 2)) 


12) 现在 ， 可 以 开始 使 用 以 下 代码 块 来 训练 网 络 : 
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for epoch in range (n_epochs): 
D losses [ 
G losses [ 
for x , _ in train loader: 
D.zero grad() 


mini batch = x .size()[0] 

y real = torch.ones (mini. batch) 

y fake = torch.zeros (mini batch) 

X = Variable(x .cuda()) 

y real = Variable(y. real, .cuda()) 

y fake = Variable(y. fake .cuda()) 

D result - D(x ).squeeze() 

D real loss = BCE loss(D result, y. real. ) 


u torch.randn((mini, batch, 100)).view(-1, 100, 1, 1) 
z_ = Variable (z. .cuda()) 


G result = G(z ) 


Z 


D result = D(G result).squeeze() 

D fake loss = BCE loss(D result, y. fake ) 
D fake score = D result.data.mean() 

D train, loss = D, real loss + D fake loss 


D train, loss.backward() 

D optimizer.step() 

D losses.append (D train loss.data[01]) 
G.zero grad() 


torch.randn((mini batch, 100)).view(-1, 100, 1, 1) 
Variable (z .cuda()) 


G result = G(z.) 
D result = D(G result).squeeze() 
G train loss = BCE loss(D result, y real ) 
G train loss.backward() 
G optimizer.step() 
G losses.append(G train loss.data[0]) 
print('Epoch $d = loss d: $.3f, loss.g: $.3f' $ ((epoch + 1), 
torch.mean(torch.FloatTensor (D losses)), 
torch.mean(torch.FloatTensor (G losses)))) 
# 绘制 样本 输出 
plot, output (epoch) 


在 图 6.2 中 ， 可 以 看 到 运行 了 24 个 周期 后 的 网 络 输出 : 
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图 6.2 运行 24 个儿 代 周期 后 生成 图 像 的 示例 


6.4 使 用 SRGAN 来 提高 图 像 分 辨 率 

在 第 3 章 ” 卷 积 神经 网 络 ”中 ,演示 了 如 何 使 用 CNN 来 自动 编码 图 像 以 获得 图 像 的 压 
缩 。 在 数字 时 代 ， 更 重要 的 是 能 够 将 图 像 的 分 辨 率 提 高 档次 。 例 如 ， 一 个 压缩 版 本 的 图 像 
可 以 很 容易 地 通过 互联 网 共享 。 当 图 像 到 达 接 收 端 时 ， 它 的 质量 需要 增加 ， 也 称 为 超 分 辨 
成 像 (SR )。 在 下 面 的 内 容 中 ， 将 向 读者 展示 如 何 通过 使 用 PyTorch 框架 进行 深度 学 习 来 训 
练 网 络 模型 以 此 来 提高 图 像 分 辩 率 。 


如 何 去 做 … 
1 ) 首先 ， 需 要 导入 所 需 的 函数 库 : 


import os 

from os Import listdir 

from os.path import join 

import numpy as np 

import random 

import matplotlib.pyplot as plt 


import torchvision 
from torchvision import transforms 
import torchvision.datasets as datasets 


Import tarch 

import torchinn as ru 

import torch.nn.functional as F 
import torch.optim as optim 

from torch.autograd import Variable 
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2) 在 这 个 方案 中 ， 将 使 用 CelebA 人 脸 数 据 集 。 将 在 PyTorch 中 导入 可 以 目 定 义 功能 
的 数据 : 


class data from dir(data.Dataset): 


def _ init (self, image dir, transform-None): 
super(DatasetFromFolder, self). init  () 
self.image dir = image dir 
self.image filenames = [ x for x in listdir(image dir) if 
is image file (x)] 
self.transform = transform 

def | getitem (self, index): 
# 加 载 图 像 
image = Image.open(join(self.image dir, 
self.image filenames[index])).convert('RGB') 
image = self.transform(image) 


return image 


def | len (self): 
return len(self.image filenames) 


3) 现在 定义 用 于 模型 的 超 参数 : 


batch, size = 16 

image size = 125 

image channels - 3 

n conv blocks = 2 

up sampling - 2 

n epochs - 100 

learning rate G - 0.00001 
learning rate D 0.0000001 


4) 在 继续 之 前 ， 将 展示 一 个 示例 图 像 和 一 个 缩小 版 。 将 缩小 的 图 像 用 作 输 入 ， 将 原始 
图 像 用 作 目 标 图 像 。 选 择 将 原始 图 像 缩 小 为 /2( 见 图 6.3 ): 


0 


0 
100 100 


200 200 


0 100 200 0 100 200 


图 6.3 ”缩小 图 像 和 原始 图 像 的 示例 (目标 为 230 x 250 像素 ) 


5) 现在 可 以 定义 鉴别 带 网 络 。 这 个 网 络 杂 构 非常 侧 单 ， 并 且 基 于 众所周知 的 分 类 体系 
结构 。 鉴 别 天 的 任务 是 对 真实 的 输出 和 生成 胡 的 输出 进行 分 类 : 
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class discriminator. model (nn.Module) 


def _ ini 


super (discriminator, model, 
nn. 


self. 
self. 
self. 
self. 
self. 
self. 
self. 
self. 
self. 
self. 
self. 
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self. 
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self. 
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def forwa 
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retur 


= F. 


t (self): 


conví1 


CONV2 = nn. 


conv2_bn 
conv3 
conv3_bn 
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conv4_bn 
conv5 
conv5_bn 
conv6 
convó bn 
conv” 
conv7_bn 
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conv8 bn 
fc1 nn 
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nn 


LI 


rd(self, 
elu(self. 
.elu(self. 
.elu(self. 
.elu(self. 
.elu(self. 
.elu(self. 
.elu(self. 
.elu(self. 


.View(x.size(0), 


nn. 


nn. 


nn. 


nn. 


.Conv2d (256, 


.Conv2d (512, 


.Linear (2048, 
Linear (1024, 


Conv2d(3, 64, 3, 

Conv2d (64, 64, 3, 
nn.BatchNorm2d(64) 

Convzd(64, 128, 3; 

nn.BatchNorm24d(128) 
Convzdila48, 128; 3; 
nn.BatchNorm24d(128) 
Convadi(la48,. 250. 3, 
nn.BatchNorm2d (2560) 
Convz2d(256; 290,4 3, 
nn.BatchNorm2d(256) 
Dur. a7 
nn.BatchNorm2d (512) 
olap d 
nn.BatchNorm2d (512) 
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1) 


x): 

conví1 (x)) 
conv2_bn (self. 
conv3_bn (self. 
conv4_bn (self. 
conv5_bn (self. 
conv6_bn (self. 
conv7_bn (self. 
conv8_bn (self. 


conv2 
CONV3 
conv4 
CONVD 
convo 
conv” 
conv8 
—1) 


.e€lu (self.fc1(x)) 
.Sigmoid(self.fc2(x)) 


n x 


stride=1, 


(x))) 
(x))) 
(x))) 
(x))) 
(x))) 
(x))) 
(x))) 


self). init  () 
stride-1, 
stride-2, 


stride-2, 


stride-1, 


stride-2, 


stride-1, 


stride-2, 


padding-1) 
padding-1) 


padding-1) 


padding-1) 
padding-1) 
padding-1) 
padding-1) 


padding-1) 
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6) 在 定义 生成 套 体 系 结构 之 前 ， 需 要 定义 将 重复 使 用 的 两 个 类 。 首 先是 一 个 卷 积 块 ， 
它 由 批量 处 理 标 准 化 、 卷 积 层 和 Dropout 组 成 : 


class conv block (nn.Module): 
def _ init (self, 


super (conv. block, 
layers 


self. 


layers 


in. channels, 


k, 
self); Ini 1) 


for i in range(layers): 


self.add module('batchnorm' 


nn.BatchNorm2d(in channels)) 


self.add module('conv' 
nn.Conv2d(in channels, 


p 


self.add, module('drop' 


adding-1)) 


Es S5 


nn.Dropout2d(p-2p)) 


layers, 


p-0.2): 


+ str(i+1), 


+ str(i+1), 
stride-1, 


+ str(i+1), 
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in channels += k 


def forward(self, x): 
for i in range(self.layers): 


y = self. getattr  ('batchnorm' + str(i-1)) (x.clone()) 
y = F.elu(y) 

y = Self.  getattr  ('conv' + str (i+1)) (y) 

y = self. getattr  ('drop' + str(i+1)) (y) 


x = torch.cat((x,y), dim-1) 
return x 


7) 55—^4T2SRETF I] ERE : 


class upsample blockí(nn.Module): 
def | init (self, in channels, out, channels): 
super(upsample block, self). init  () 
self.upsamplei1 = nn.Upsample (scale factor-2, 
mode-'nearest') 
self.convi1 = nn.Conv2d(in channels, out channels, 3, 
Stride-1, padding-1) 


def forward(self, x): 
return F.elu(self.conví(self.upsamplel1(x))) 


8) FOX IE odi A : 


class generator model (nn.Module): 


def _ init (self, n conv blocks, n upsample blocks): 
Super(generator model, self). init  () 
self.n dense blocks = n blocks 


self.upsample - upsample 


self.conv1 nn.Conv2d(3, 64, 9, stride-1, padding-1) 
inchannels = 64 
for i in range(self.n conv blocks): 

self.add module('conv block' + str(i-*1), 

conv block(inchannels, 12, 4)) 

inchannels += 12*4 


self.conv2 - nn.Conv2d(inchannels, 604, 3, 
stride-1, padding-1) 
self.conv2 bn = nn.BatchNorm2d(604) 


in channels - 64 
out channels - 256 
for i in range(self.n upsample blocks): 
self.add module('upsample block' + str(i-1), 
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upsample block(in channels, out channels)) 
in channels = out channels 
out channels = int (out. channels/2) 
self.conv3 = nn.Conv2d(in channels, 3, 9, 


stride-1, padding-1) 


def forward(self, x): 
x = self.conv1(x) 


for i in range(self.n dense blocks): 
x = self. getattr  ('conv block' + str(i-1)) (x) 


x — F.elu(self.conv2 bn(self.conv2(x))) 


for i in range(self.upsample): 
x = self. getattr  ('upsample blcok' + str(i+1)) (x) 


return self.conv3(x) 
9) 现在 可 以 创建 数据 集 了 。 首 先 ， 定 义 所 需要 的 转换 函数 : 


normalize = transforms.Normalize(mean = [0.485, 0.456, 0.406], 
std = [0.229, 0.224, 0.225]) 


scale = transforms.Compose([transforms.ToPILImage(), 
transforms.Scale(image size), 
transforms.ToTensor(), 
transforms.Normalize 
(mean = [0.485, 0.456, 0.406], 
std = [0.229, 0.224, 0.225]) 
]) 


transform = 
transforms.Compose([transforms.Scale(image size*n upsampling), 
transforms.ToTensor()]) 


10) 把 数据 载 人 到 PyTorch 的 DataLoader 中 : 


dataset = data from dir('Data/CelebA/splits/train', 
transform-transform) 

dataloader = torch.utils.data.DataLoader (dataset, 
batch size-batch size, shuffle-True) 


netG = Generator (n conv blocks, n upsampling) 
netD = Discriminator() 


11) 作为 损失 函数 ， 将 使 用 BCELoss 函数 : 
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adversarial loss = nn.BCELoss() 


12) 需要 设置 占 位 符 并 激活 CUDA 的 使 用 : 


target real = Variable(torch.ones(batch size, 1)) 
target fake Variable(torch.zeros(batch size, 1)) 
target real target real.cuda() 
target fake - target fake.cuda() 


inputs, G = torch.FloatTensor (batch, size, image channels, 
image size, image size) 


netG.cuda() 

netD.cuda() 

feature extractor - 
FeatureExtractor(torchvision.models.vgg19(pretrained-True)) 
feature extractor.cuda() 


content loss = nn.MSELoss() 
adversarial loss = nn.BCELoss() 
content loss.cuda() 
adversarial, loss.cuda() 


13 ) 对 于 这 两 个 网 络 ， 将 使 用 Adam fes : 


opt G = optim.Adam (netG.parameters(), lr-learning rate GC) 


opt D = optim.Adam(netD.parameters(), lr-learning rate D) 


14) 最 后 ， 在 训练 网 络 之 前 ， 定 义 一 个 函数 来 绘制 中 间 结 琳 : 


def plot output (inputs_G, inputs. D real, inputs D fake): 


image size = (250, 250) 

transform - transforms.Compose([transforms.Normalize 
(mean = [-2.118, -2.0306, -1.804], 
std = [4.367, 4.464, 4.444]), 


transforms.ToPILImage(), 
transforms.Scale(image size)]) 


figure, (lr-plot, hr plot; take plot) = plt.subplotsil,2) 
i = random.randint(0, inputs G.size(0) -1) 

lr image = transform(inputs, G[i]) 

hr image = transform(í(inputs, D real[il) 


fake hr image = transform(inputs, D fake[il) 
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lr image ph = lr plot.imshow(lr image) 
hr image ph = hr. plot.imshow (hr. image) 
fake hr, image ph = fake plot.imshow(fake hr. image) 
figure.canvas.draw() 
plt.show() 
15 ) 现在 可 以 开始 使 用 下 面 的 代码 块 来 训练 网 络 : 
inputs G = torch.FloatTensor(batch size, 3, image size, image size) 


for epoch in range (n, epochs): 
for i, inputs in enumerate (dataloader): 


for j in range (batch, size): 


inputs, G[j] = scale(inputs[j]) 
inputs[j] = normalize(inputs[jl) 
inputs, D real - Variable(inputs.cuda()) 


inputs D fake - net G(Variable(inputs, G).cuda()) 
net D.zero grad() 


outputs = net D(inputs D real) 
D real = outputs.data.mean() 
loss D real = adversarial loss(outputs, target real) 


loss D real.backward() 


outputs - net D(inputs D fake.detach()) 
D fake = outputs.data.mean() 


loss. D fake = adversarial criterion(outputs, target fake) 
loss, D fake.backward() 


opt D.step() 


net G.zero grad() 

real features - 

Variable(feature extractor(inputs D real).data) 
fake features = feature extractor(inputs D fake) 


loss G content = content loss (fake features, 
real features) 

loss G adversarial - 

adversarial loss(net D(inputs D fake).detach(), 
target real) 


loss G total = 0.005*10ssG content + 
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0.001*10ssG adversarial 
loss G total.backward() 
opt G.step() 


plot output(inputs G, inputs D real.cpu().data, 
inputsD, fake.cpu().data) 


在 图 6.4 中 ， 可 以 看 到 网 络 运行 100 个 周期 后 的 输出 。 


0 0 0 


100 100 100 


200 200 200 


0 100 200 0 100 200 0 100 200 


图 6.4 ENIRA BRR, 原始 图 像 和 生成 图 像 的 示例 


正如 读者 可 能 已 经 注意 到 的 那样 ， 生 成 的 图 像 并 不 像 原 始 图 像 那样 清晰 。 训 练 ， 
一 个 生成 器 网 络 以 提高 图 像 的 分 辩 率 是 一 项 繁重 的 计算 任务 。 该 方案 中 使 用 的 | 
数据 集 具 有 相对 较 低 的 平移 不 变性 。 然 而 ， 所 建 模型 仍然 需要 进一步 的 优化 以 1 
及 更 多 周期 的 训练 ， 以 取得 更 好 的 结果 。 | 


po ——————M—————————————— "Á—————— «———————— —————————————————————————————————M———————————————— | 
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在 本 章 中 ， 将 实现 与 图 像 编码 数据 处 理 (包括 视频 帧 ) 有 关 的 深度 神经 网 络 。 以 下 是 
将 要 介绍 的 内 容 

。 利 用 计算 机 视觉 技术 增 广 图 像 ; 

。 图像 中 的 目标 分 类 ; 

。 目标 在 图 像 中 的 本 地 化 ; 

。 实 时 检测 框架 ; 

。 用 U-net 将 图 像 分 类 ，; 

。 语 义 分 割 与 场景 理解 ; 

。 寻 找 人 脸面 部 关键 点 ; 

。 人 脸 识 别 ; 

。 将 样式 转换 为 图 像 。 


7.1 简介 

本 音 的 重点 是 深度 学 习 在 计算 机 视觉 中 的 应 用 。 深 度 学 习 ， 尤 其 是 卷 积 神经 网 络 
(CCNN )， 已 经 彻底 改变 了 计算 机 视 党 领域 。 大 部 分 的 基准 测试 都 是 由 于 引入 更 次 的 CNN 而 
遭 到 放弃 ， 有 些 则 首次 超过 了 人 类 水 平 的 精度 。 在 本 章 中 ,将 展示 计算 机 视觉 中 的 各 种 应 
用 。 除 了 CNN 之 外 ， 还 将 在 这 些 方案 中 使 用 递归 神经 网 络 (RNN )。 


7.2 利用 计算 机 视觉 拉 术 增 广 图 像 

CNN 和 计算 机 视 沉 在 次 度 学 习 中 不 可 分 割 。 在 效 入 研究 深度 学 习 在 计算 机 视 贫 中 的 
应 用 之 前 ， 将 介绍 基本 的 计算 机 视 党 技术 ， 访 者 可 以 在 次 度 学 习 过 程 中 应 用 这 些 技术 ,使 
构建 的 模型 更 加 鲁 棒 。 在 训练 过 程 中 可 以 使 用 图 像 增 广 来 增加 不 同 示例 样本 的 数量 ， 并 
使 所 建 模 型 对 轻微 变化 更 为 鲁 棒 。 而 且 ， 可 以 在 测试 过 程 中 加 以 使 用 ， 即 测试 时 间 增 广 
( TTA ), 并 非 每 种 增强 技术 都 适用 于 所 有 问题 ， 例 如 将 交通 标志 的 左 箭头 翻转 后 的 含义 己 
原来 的 含义 将 会 不 同 。 本 书 将 使 用 OpenC V 实现 图 像 增强 功能 。 


如 何 去 做 … 
1 ) 先 加 载 所 需 的 函数 库 : 
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import numpy as np 

import CY 

import matplotlib.pyploL as plt 
import glob 


2) 接 下 来 ， 加 载 一 些 将 使 用 的 样本 图 像 ， 并 绘制 出 来 〈 见 图 7.1): 


DATA DIR = 'Data/augmentation/' 
images = glob.glob(DATA DIR + '*') 


plt.figure(figsize-(10, 10)) 


i = 1 
for image in images: 
img = cv2.imread (image) 


img = cv2.cvtColor (img, cv2.COLOR BGR2RGB) 
plt subplot (3; 37 X) 
plt.imshow (img) 
i += 1 
plt.show() 


0 200 400 600 800 0 50 100 150 200 


图 7.1 用 于 增 广 的 示例 图 像 


3) 痛 完 定义 一 个 函数 用 来 绘制 图 像 增 广 的 例子 : 


def plot images(image, function, *args): 
plt.figure(figsize-(10, 10)) 
n examples = 3 
for i in range (n examples): 
img = cv2.imread(image) 
img = cv2.cvtColor(img, cv2.COLOR BGR2RGB) 
img = function(img, *args) 
plt.subplotiJs. 32 T1) 
plt.imshow (img) 
plt.show() 


4) 定义 一 个 函数 来 随机 旋转 图 像 并 绘制 一 些 例子 ( LES 7.2 ): 
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def rotate image(image, rotate-20): 
width, height, _ = image.shape 
random rotation = np.random.uniform(low--rotate, high-rotate) 
M = cv2.getRotationMatrix2D((width/2, height/2), 
random rotation, 1) 
return(cv2.warpAffine(image, M, (width, height))) 


plot images(images[2], rotate image, 40) 


0 0 
50 50 
100 100 
150 150 
200 200 | 


0 50 100 150 200 0 50 100 150 200 0 50 100 150 200 
图 7.2 ”随机 旋转 的 实例 
5) 接 下 来 ， 定义 一 个 也 数 来 调整 图 像 的 腕 度 ( 见 图 7.3 ): 
def adjust brightness(image, brightness=60): 
rand brightness = np.random.uniform(low--brightness, 


high-brightness) 
return(cv2.add(image, rand brightness)) 


plot images(images[0], adjust brightness, 85) 


O 200 400 6000 800 O 200 400 6000 800 O 200 400 6000 800 


图 7.3 随机 调整 亮度 的 实例 
6) 以 下 明 数 将 使 用 所 提供 的 参数 随机 移动 图 像 ( 见 图 7.4 ): 


def random shifts(image, shift max x-100, shift max y-100): 
width, height, | = image.shape 
shift x = np.random.randint (shift max x) 
shift y = np.random.randint (shift max y) 
M= np.rtloat321i[[l, 0; SBIIL xl;lO, l1, SBLIIL vll) 
return (cv2.warpAffine(image, M, (height, width))) 


plot images(images[1], random shifts, 100, 20) 


127 


Python 深度 学 习 实 战 : 
75 个 有 关 神 经 网 络 建 模 、 强 化 学 习 与 迁移 学 习 的 解决 方案 


图 7.4 随机 移动 图 像 的 实例 


7) 对 于 某 些 图 像 ， 放 大 或 缩小 是 有 益 的 〈 见 图 7.5 ): 


def scale image(image, scale range-[0.6, 1.4]): 


width, height, — image.shape 


Scale x = np.random.uniform(low-scale range[0], 
high-scale range[1]) 

Scale y = np.random.uniform(low-scale  range[0], 
high-scale range[1]) 

scale matrix = np.array([[scale x, 0., (1. - scale x) * width / 
Z sls 

[0., scale y, (1. - scale y) * height 

[ll 


dtype-2np.float32) 
return (cv2.warpAffine (image, scale matrix, (width, height), 
flags-cv2.INTER LINEAR, 
borderMode-cv2.BORDER REFLECT 101)) 


plot images(images[2], scale image, [0.7, 1.3]) 


0 5s) 100 150 200 0 50 100 150 200 


图 7.5 随机 缩放 图 像 的 实例 
8) 最 后 的 强 广 是 为 了 随机 翻转 网 像 (ILRI 7.6 ): 


def random flip(image, p flip-20.5): 
rand = np.random.random() 
it rand < p flip: 
image = cv2.flip(image, 1) 
return image 


plot imagesí(images[2], random flip) 
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200 
0 30 100 150 200 0 50 100 150 200 0 50 100 150 200 


图 7.6 随机 翻转 图 像 的 实例 


9) 随机 地 把 所 有 的 增 广 应 用 结合 在 一 起 ,绘制 32 个 例子 的 结果 CILE 7.7 ): 


plt.figure(figsize-(15, 15)) 


image - images[1] 

for i in range (32): 
img = cv2.imread (image) 
img = cv2.cvtColor(img, cv2.COLOR BGR2RGB) 
img = transform image (img) 


DIt.subDpLOL(5, By IL) 

plt.axlsd'oLr') 

plt.imshow(img, interpolation-"nearest") 
plt.show() 


图 7.7 所 有 增 广 都 随机 应 用 32 次 
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大 多 数 深 度 学 习 框 架 都 有 自己 的 图 像 增 广 实 现 。 例 如 ， 对 于 PyTorch， 请 查看 
torchvision.transforms。 这 些 转 换 可 以 轻松 添加 诸如 随机 裁剪 和 翻转 数据 等 增 广 
功能 。 在 Keras 中 ， 读 者 可 以 使 用 ImageDataGenerator 进行 随机 图 像 增 广 。 


人 


7.3 


图 像 中 的 目标 分 类 


在 本 方案 中 ， 将 向 读者 展示 如 何 使 用 CNN 对 图 像 中 的 目标 进行 分 类 。 将 从 头 开 始 训 
练 网 络 ， 对 图 像 中 的 五 种 不 同 的 花 朱 进行 分 类 。 图 像 有 不 同 的 大 小 。 对 于 本 方案 ， 将 使 用 


Keras 。 


如 何 去 做 … 
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1) 创建 一 个 新 的 Python 文件 并 导入 必要 的 函数 库 : 


import numpy as np 

import glob 

import Gv 

import matplotlib.pyplot as plt 


from sklearn.preprocessing import LabelBinarizer 
from sklearn.model selection import train test split 
from sklearn.metrics import accuracy score 


import keras 
from keras.models import Sequential, load model 


from keras.layers import Dense, Dropout, Activation, Flatten, 


Conv2D, MaxPooling2D, Lambda, Cropping2D 
from keras.utils import np utils 
from keras import optimizers 


SEED = 2017 


2) 接 下 来 ,加载 数据 集 并 提取 标签 : 


# 指定 数据 目录 并 提取 全 部 文件 名 

DATA DIR = '../Data/' 

images = glob.glob(DATA DIR + "flower photos/*/*.jpg") 
# 从 文件 名 提取 标号 

labels = [x.split('/')[3] for x in images] 


3) 查看 这 些 数据 ( 见 图 7.8 ): 
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unique labels = set (labels) 
plt.figure(figsize-(15, 15)) 
i = 1 
for label in unique_labels: 
image = images [labels.index (label) ] 
img = cv2.imread (image) 
img = cv2.cvtColor (img, cv2.COLOR BGR2RGB) 
plt.subplot(5, Ds 1) 
plt.title("(0) (í1))".format(label, labels.count(label))) 
i += 1 
_ = plt.imshow(img) 
plt.show() 
o, iA 3E(898) omm COE 锥 菊 (633) o LIH 3&(699) 郁金香 (799) 
E » Ar ! | h - 
io S a 
200 pr A 150 局 
250 2509 Z2 > 
, i 200 


0 100200 300400 500 0 50100150200250300 0 100200300 400 500 0 50100150 200250 300 


图 7.8 具有 标签 和 计数 的 花 打 数据 集 示 例 
4 ) 将 标签 特 换 为 二 进 制 格式 : 


encoder = LabelBinarizer() 
encoder.fit (labels) 
y = encoder.transform(labels).astype(float) 


5 ) 将 数据 集 分 割 为 训练 集 和 测试 集 : 


X train, X val, y train , y val = train test split(images, y, 
test size-0.1, random state-SEED) 


6) 定义 网 络 涤 构 : 


# 定义 结构 

model = Sequential() 

model.add(Lambda(lambda x: (x / 255.) - 0.5, input shape-(100, 100, 
3))) 

model.add(Conv2D(16, (5, 5), activation-'relu', padding-'same'!)) 
model.add(MaxPooling2D (pool. size-(2,2))) 

model.add (Dropout (0.5)) 

model.add(Conv2D(32, (5, 5), activation='relu', padding='same')) 
model.add(MaxPooling2D (pool, size-(2,2))) 

model.add(Dropout (0.5)) 
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model.add(Conv2D(64, (3, 3), activation-'relu', padding='same')) 
model.add(MaxPooling2D (pool. size-(2,2))) 

model.add(Dropout (0.5)) 

model.add(Flatten()) 

model.add(Dense(256, activation-'relu'!)) 

model.add(Dropout (0.5)) 

model.add(Dense(5, activation-'softmax')) 


# 定义 优化 器 并 编译 

sgd = optimizers.SGD(lr-0.01, decay-1e-6, momentum=0.9, 
nesterov-True) 

model.compile(loss-'categorical crossentropy', optimizer-sgd, 
metrics-['accuracy!]) 


7) 创建 一 个 批量 生成 希 ， 随 机 循环 访问 数据 : 


img rows = img cols = 100 
img channels - 3 


def batchgen(x, y, batch size, transform-False): 
# 创建 空 值 numpy 数 组 
images = np.zeros((batch size, img rows, img cols, img channels)) 
class id = np.zeros((batch size, len(y[0]))) 


while 1: 


for n in range (batch size): 

i = np.random.randint (len (x)) 

X = cv2.imread(x[il) 

X = cv2.cvtColor(x , cv2.COLOR BGR2RGB) 
# 图 像 大 小 不 一 ， 全 部 变换 到 100x100 像 素 

X = cv2.resize(x , (100, 100)) 
images[n] = x. 

class, id[n] = y[i] 

yield images, class id 


8) 接 下 来 ， 开 始 训练 模型 


batch size - 256 
n epochs = 20 
S epoch = 100 
val size = 0.2 
val steps = 20 


train generator = batchgen(X train, y train, batch size, True) 
val generator = batchgen(X valid, y valid, batch size, False) 
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history = model.fit generator(train generator, 
Steps per. epoch-s epoch, 
nb epoch-n, epochs, 
validation, data-val, generator, 
validation steps - val, steps 


9) 绘制 训练 结果 C 见 图 7.9 ): 


plt.plot(history.history['acc']) 
plt.plot(history.history['val, acc']) 

plt.title('model accuracy!) 

plt.ylabel(í('accuracy') 

plt.xlabel('epochs!') 

plt.legend(['train', 'validation'], loc-2'lower right') 
plt.show() 
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10) 现在 可 以 检查 模型 在 看 不 见 的 测试 集 上 的 执行 结 


test generator = batchgen(X valid, y valid, 1, False) 


preds = model.predict generator(test generator, steps-len(X valid)) 
y valid = [np.argmax(x) for x in y valid] 
y preds = [np.argmax(x) for x in preds] 


accuracy score(y valid , y preds) 


11) 最 后 ， 绘 制 一 些 预测 结果 ( 见 图 7.10 ): 
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n predictions = 5 
plt.figure(figsize-(15, 15)) 
for i in range (n predictions): 
plt.subplorí(n predictions; n predictions; IT1) 
plt.title("(0) ((1))".format(list(set(labels))[np.argmax(preds[i])]l, 
list(set(labels))[np.argmax(y valid[i])1])) 
img = cv2.imread(X valid[i]) 
img = cv2.cvtColor(img, cv2.COLOR BGR2RGB) 
plt.axis('otft') 
plt.imshow (img) 
pit.tight.layoutt] 
plt.show() 
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7.4 目标 在 图 像 中 的 本 地 化 

现在 可 以 对 图 像 中 的 目标 进行 分 类 ， 下 一 步 是 对 图 像 中 的 目标 进行 本 地 化 和 分 类 ( 检 
测 )。 在 上 一 个 方案 使 用 的 数据 集中 ， 花 条 (物体 ) 清晰 可 见 ， bid it 几乎 
复 盖 了 整个 图 像 。 但 是 ， 通 稼 情况 并 非 如 此 ， 和 硕 望 检测 图 像 中 的 一 个 或 多 个 目标 。 在 下 面 
的 内 容 中 ， 将 展示 如 何 使 用 深度 学 习 来 检测 图 像 中 的 目标 。 

将 使 用 高 有 注释 的 货车 数据 集 。 图 像 由 安装 在 货车 前 部 的 摄像 涉 来 扫 摄 ， 使 用 
TensorFlow 来 实现 目标 检测 需 


如 何 去 做 … 
1) JEFA RUE : 


import numpy as np 

import pandas as pd 

import glob 

import cv2 

import matplotlib.pyplot as plt 
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from sklearn.preprocessing import LabelBinarizer 
from sklearn.model selection import train test split 
from sklearn.metrics import accuracy score 


from keras.models import Sequential, load model 

from keras.layers import Dense, Dropout, Activation, Flatten, 
Conv2D, MaxPooling2D, Lambda, Cropping2D 

from keras.utils import np utils 

from keras import backend as K 

from keras.callbacks import EarlyStopping 

from keras import optimizers 


2.) 加 载 数据 集 并 绘制 CSV 文件 的 第 一 行 : 


DATA DIR = 'Data/object-detection-crowdai/' 
labels = pd.read csv(DATA DIR + 'labels.csv', 
usecols-[0,1,2,3,4,5]) 

# 仅 定位 货车 


labels = labels[labels.Label == 'Truck'] 
+ 仅 使 用 有 标注 的 货车 图 像 
labels - 


labels[-labels.Frame.isin(labels.Frame[labels.Frame.duplicated()] 
alues)] 

labels.columns-['xmin', 'ymin', 'xmax', 'ymax', 'Frame', 'Label!'] 
labels[30:50] 


3) 为 了 理解 数据 集 ， 绘 制 一 些 示 例 图 像 及 其 边框 〈 见 图 7.11): 


image list = ['1479498416965787036.7jpc', 
'1479498541974858765.3pg'] 


plt.figure(figsize-(15,15)) 

i-1 

for image in image list: 
plt.subplot(lení(image list), len(image list), i) 
img info = labels[labels.Frame -- image] 
img = cv2.imread (DATA DIR + image) 
img = cv2.cvtColor(img, cv2.COLOR, BGR2RGB) 
print (img.shape) 
cv2.rectangle(img, (img info.xmin, 

imgq info.vmin),(img info.xmax, img info.ymax), (255, U , 255), 4) 
print (mo. infa) 
plt.imshow (img) 
it-1 

plt.show() 
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图 7.11 示例 图 像 及 其 边框 
4) 接 下 来 ， 输 出 关于 数据 集 的 一 些 统计 数据 : 


X train = labels.iloc[:1970] 
X val = labels.iloc[2000:] 
print(X train.shape) 
print (X val.shape) 


5) KARPER WEREMA, DIETE SUSUORZET TUI RIUSRERI (为 了 防止 
数据 泄露 )， 应 该 倍加 小 心 。 大 多 数 图 像 有 重合 ( 见 图 7.12 ): 


image list = ['1479502622732414408.jJpg', 
'1479502623247392322.Jpg', 
'1479502623755460204.jpg', 
'1479502623247392322.J]pg', 
'1479502625253159017.73pg'] 

n images = len(image list) 


plt.figure(figsize-(15,15)) 

for i in range (n images): 
plt.subplotí(n images, n images, i+1) 
plt.title("(0)".format(image list[i])) 
img = cv2.imread(DATA DIR + 'object-detection-crowdai/' 
+ image list[i]) 
img = cv2.cvtColor(img, cv2.COLOR BGR2RGB) 
pltc.axisi('orrf') 
plt.imshow (img) 
plt.tight, layout () 

plt.show() 


1479502622732414408.jpg 1479502623247392322.jpg 1479502623755460204.jpg 1479502623247392322jpg 1479502625253159017.jpg 


图 712 ”数据 集中 的 许多 图 像 有 重 县 部 分 
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6) 因此 ， 将 基于 时 间 对 训练 数据 和 验证 数据 进行 分 割 : 


X train = labels.iloc[:1970] # 选择 这 个 图 像 帧 是 因为 汽车 右 转 
makes a right turn 

X val = labels.iloc[2000:] 

print(X train.shape) 

print(X val.shape) 


7) 自 定 义 函 数 用 于 测量 IOUC ， 如 下 所 示 : 


def IOU calc(y true, y pred, smooth-20.9): 

y true f - K.flatten(y true) 

y pred f = K.flatten(y. pred) 

intersection = K.sum(y true f * y pred f) 

return 2*(intersection + smooth) / (K.sum(y true f) 十 
K.sum(y. pred f) + smooth) 


8) 现在 ， 定 义 模型 架构 : 


img rows - 200 
img cols - 200 
img channels = 3 


model = Sequential() 

model.add(Lambda(lambda x: (x / 255.) - 0.5, input shape-(img rows, 
img cols, img. channels))) 

model.add(Conv2D(16, (5, 5), activation-'relu', padding-^'same!)) 
model.add(MaxPooling2D (pool. size-(2,2))) 

model.add(Conv2D(32, (5, 5), activation-'relu', padding-'same!)) 
model.add(MaxPooling2D (pool. size-(2,2))) 

model.add(Conv2D(64, (3, 3), activation-'relu', padding-'same')) 
model.add(MaxPooling2D (pool. size-(2,2))) 

model.add(Flatten()) 

model.add(Dense(256, activation-^'relu!')) 

model.add(Dropout (0.5)) 

model.add(Dense(4, activation-'sigmoid!)) 


# 定义 优化 器 并 编译 

opt = optimizers.Adam(lr-21e-8) 

model.compile(optimizer-opt, loss-2'mse', metrics-[IOU calc]) 
model.summary () 


9) 为 了 确保 训练 数据 适合 内 存 容量 ， 可 以 使 用 批量 生成 带 : 


O IOU 是 交 并 比 的 缩 略 语 ， 即 模型 产生 的 目标 窗口 与 原来 标记 窒 口 的 交 琶 率 ， 衡 量 目标 检测 的 精 
BR. 一 一 详 者 注 
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def batchgen(x, y, batch size, transform-False): 

# 创建 空 值 numpy 数 组 

images = np.zeros((batch size, img rows, img. cols, 
img channels)) 

class id = np.zeros((batch size, 4))4len(y[0]1))) 


while 1: 
for n in range (batch, size): 
i = np.random.randint (len (x)) 
x = x.Frame.iloc[i] 
X = cv2.imread(DATA DIR + image) 
X = cv2.cvtColor(img, cv2.COLOR, BGR2RGB) 
x min = (x.iloc[i].xmin * (img cols/1920)) / img. cols 
x max = (x.iloc[i].xmax * (img cols/1920)) / img. cols 
y min = (x.iloc[i].ymin * (img rows/1200)) / img rows 
y max = (x.iloc[i].ymax * (img rows/1200)) / img rows 
y = (x min, y min, x max, y max) 
X = cv2.resize(x , (img cols, img rows)) 
images[n] = x. 
class id[n] = y_ 


yield images, class id 


10) 为 了 确保 模型 不 会 过 拟 合 训练 数据 ， 将 使 用 早 集 方法 : 


callbacks = [EarlyStopping (monitor='val_IOU_calc', patience=10, 
verbose-0)] 


11) 现在 可 以 训练 所 建 模 型 ， 并 将 训练 结果 存储 在 历史 记录 中 : 


batch, size = 64 
n epochs = 1000 
Steps per epoch = 512 


val steps = len(X val) 
train generator = batchgen(X train, _, batch size, True) 
val generator = batchgen(X val, ., batch size, False) 


history = model.fit generator(train generator, 
Steps per epoch-steps per epoch, 
epochs-n epochs, 
validation data-val. generator, 
validation steps = val. steps, 
callbacks-callbacks 
) 
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在 一 些 应 用 中 ， 之 前 实现 的 检测 模型 是 不 够 的 。 对 于 这 些 应 用 来 说 ， 为 了 能 够 尽快 启 
动 ， 实 时 感知 是 重要 的 ， 这 需要 一 个 能 够 近 实 时 地 检测 物体 的 模型 。 最 流行 的 实时 检测 框 
W faster- RCNN、YOLO ( 您 仅 需 查看 一 次 ) MSSD ( 单 发 多 使 检 测 器 )。Faster-RCNN 
在 基准 测试 中 表现 出 更 高 的 精度 ,但 是 YOLO 能 够 更 快 地 推断 出 预测 结 


7.6 用 U-net 将 图 像 分 类 

在 之 前 的 方案 中 ， 主 要 通过 预测 边界 框 来 定位 目标 。 但 是 在 某 些 情 况 下 ,需要 知道 目 
标的 确切 位 置 ， 同 时 目标 周围 的 边界 框 不 够 用 ， 也 称 之 为 分 割 ， 即 给 目标 加 上 掩 模 。 为 了 
预测 物体 的 掩 模 ， 将 使 用 流行 的 U-net 模型 结构 。 通 过 万 得 多 个 图 像 分 割 比 完 ，U-net 模型 
已 被 证 明 是 最 先进 的 。 U-net 模型 是 一 种 特殊 类 型 的 编码 融 一 解码 需 网 络 ， 具 有 跳 转 连接 、 
卷 积 分 块 和 卷 积 泛 化 的 功能 。 

在 下 面 的 内 容 中 ， 将 问讯 者 展示 如 何 分 割 图 像 中 的 目标 。 具 体 来 说 ， 就 是 分 割 痛 景 。 
为 实现 U-net WAI, IEH Keras 框架 。 


如 何 去 做 … 
1 ) 首先 导入 所 需 函 数 库 ， 如 下 所 示 : 


import numpy as np 

import ev2 

import matplotlib.pyplot as plt 
import glob 


from keras.layers import Input, merge, Conv2D, MaxPooling2D, 
UpSampling2D, Dropout, Cropping2D, merge 

from keras.optimizers import Adam 

from keras.callbacks import ModelCheckpoint, LearningRateScheduler 
from keras import backend as K 

from keras.models import Model 


2) 然后 ， 需 要 存储 所 有 的 训练 文件 名 : 


import os 
filenames = [] 
for path, subdirs, files in os.walk('Data/10bj'): 
for name in files: 
ift "sro color' in path: 
filenames.append(os.path.join(path, name)) 
print ('# Training images: í(j'.format(len(filenames))) 


3 ) 绘制 一 些 示例 训练 图 像 和 它们 的 掩 醒 〈 见 图 7.13 ): 
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n_examples = 3 
for i in range (n examples): 
pltsubDploLti[2,. áp 1) 
image = cv2.imread(filenames[i]) 
image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB) 
plt.imshow (image) 


plt. suUDplLhoL(Z, Ar 2) 
mask file = filenames[i].replace('sro color', 'human, seg') 
mask = cv2.imread(glob.glob(mask file[:-4]-*'*')[0]) 


ret, mask = cv2.threshold(mask, 0, 255, cv2.THRESH BINARY INV) 


mask - mask[:,:,0] 
plt.imshow((mask), cmap-'gray') 


plt.show() 
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图 7.13. 示例 训练 图 像 及 其 掩 模 


4) 为 了 确定 网 络 的 性 能 和 损失 晒 数 ， 将 使 用 dice 系数 。 需 要 实现 这 些 功 
用 Keras 模型 进行 编译 : 
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def dice coef(y true, y pred, smooth-20.9): 

y true f - K.flatten(y true) 

y. pred f = K.flatten(y. pred) 

intersection = K.sum(y true f * y pred f) 

return (2. * intersection + smooth) / (K.sum(y true f) 十 
K.sum(y pred f) + smooth) 


def dice coef loss(y true, y pred): 
return -dice coefí(í(y true, y pred) 


5) f£ POE, EX U-net 模型 架构 : 


img rows - 240 

img cols = 240 

img channels = 3 

inputs = Input((img. rows, img cols, img channels)) 

convi = Conv2D(64, 3, activation = 'relu', padding = 'same', 
kernel initializer = 'he normal') (inputs) 

convi = Conv2D(64, 3, activation = 'relu', padding = 'same', 
kernel initializer = 'he normal') (conv1) 


poolí1 = MaxPooling2D(pool size-(2, 2)) (conv1) 


conv2 = Conv2D(128, 3, activation = 'relu', padding = 'same', 
kernel initializer = "he normal')t(pooll) 
conv2 = Conv2D(128, 3, activation = 'relu', padding = 'same', 
kernel initializer = 'he normal') (conv2) 


pool2 = MaxPooling2D(pool size-(2, 2)) (conv2) 


conv3 = Conv2D(256, 3, activation = 'relu', padding = 'same', 
kernel initializer = 'he-normal')(pool2) 
conv3 = Conv2D(256, 3, activation = 'relu', padding = 'same', 
kernel initializer = 'he normal') (conv3) 


pool3 = MaxPooling2D (pool size-(2, 2)) (conv3) 


conv4 = Conv2D(512, 3, activation = 'relu', padding = 'same!', 
kernel initializer = 'he normal') (pool3) 
conv4 = Conv2D(512, 3, activation = 'relu', padding = 'same', 
kernel initializer = 'he normal') (conv4) 


drop4 = Dropout (0.5) (conv4) 
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pool4 = MaxPooling2D (pool size-(2, 2)) (drop4) 

conv5 = Conv2D (1024, 3, activation = 'relu', padding 
kernel initializer = 'he normal') (pool4) 

conv5 = Conv2D (1024, 3, activation = 'relu', padding 
kernel initializer = 'he normal') (conv5) 

dropo = Dropout (0.5) (convo5) 

up6 = Conv2D(512, 2, activation = 'relu', padding = 


kernel_initializer = 'he_normal') (UpSampling2D (size 


(2,2) ) (drop5)) 


merge6 = merge([drop4,up6], mode = 'concat', concat. 
conv6 = Conv2D(512, 3, activation = 'relu', padding 
kernel initializer = 'he normal') (mergeo) 

conv6 = Conv2D(512, 3, activation = 'relu', padding 
kernel initializer = 'he normal') (conv) 

up/ = Conv2D(256, 2, activation = 'relu', padding = 
kernel initializer = 'he normal') (UpSampling2D (size 
(2,2)) (conv6)) 

merge/7 = merge([conv3,up7], mode = 'concat', concat_ 
conv/ = Conv2D(256, 3, activation = 'relu', padding 
kernel initializer = 'he normal') (merge?) 

conv/ = Conv2D(256, 3, activation = 'relu', padding 
kernel initializer = 'he normal') (conv7) 

up8 = Conv2D(128, 2, activation = 'relu', padding = 
kernel initializer = 'he normal') (UpSampling2D(size 
[2.2)g dp Om T) 

merge8 = merge([conv2,up8], mode = 'concat', concat_ 
conv8 = Conv2D(128, 3, activation = 'relu', padding 
kernel initializer = 'he normal') (merge8) 

conv8 = Conv2D(128, 3, activation = 'relu', padding 
kernel initializer = 'he normal') (conv8) 

up9 = Conv2D(64, 2, activation = 'relu', padding = 
kernel initializer = 'he normal') (UpSampling2D(size 
(ará) (Conv9)) 

merge9 = merge([convi1,up9], mode = 'concat', concat. 
conv9 = Conv2D(64, 3, activation = 'relu', padding 
kernel initializer = 'he normal') (merge9) 

conv9 = Conv2D(64, 3, activation = 'relu', padding 
kernel initializer = 'he normal') (conv9) 

conv9 = Conv2D(2, 3, activation = 'relu', padding - 
kernel initializer = 'he normal') (conv9) 

conv10 = Conv2D(1, 1, activation = 'sigmoid') (conv9) 
model - Model(input - inputs, output - conv10) 

opt = Adam() 

model.compile(optimizer = opt, loss-dice coef loss, 


[dice coef]) 
model.summary () 


= 'sgame', 


= 'sgame', 


'same', 


axis = 3) 
= 'same', 


= 'same'!, 


'same'!, 


axis = 3) 
= 'same', 


= 'same', 


'same', 


axis = 3) 
= 'sgame!, 


= 'game'!, 


same', 


axis = 3) 
'same', 


'same', 


'same', 


metrics - 


6 ) 加 载 训练 数据 : 


X = np.ndarray((len(filenames), img rows, img cols , img channels), 
dtype-np.uint89) 
y = np.ndarray((len(filenames), img rows, img cols , 1), 
dtype-np.uint89) 
i-0 
for image in filenames: 

img = cv2.imread (image) 

img = cv2.cvtColor(img, cv2.COLOR BGR2RGB) 

img = cv2.resize(img, (240,240)) 

mask file = image.replace('src color', 'human, seg!) 


label = cv2.imread(glob.glob(mask file[:-4]-*'*')[0], 0) 
ret, label = cv2.threshold(label, 0, 255, 
Cv2.THRESH BINARY INV) 
label = cv2.resize(img, (240, 240)) 
label = label[:,:,0].reshape((240, 240, 1)) 
img = np.array([img/255.]) 
label = np.array([label]) 


X[i] = img 
y[i] = label 
i+=1 


7) 最 后 ， 可 以 开始 训练 所 建 模型 ， 如 下 所 示 : 


n_epochs = 1 
batch size = 1 

history = model.fit(X, y, batch size-batch size, epochs-10, 
verbose-1, shuffle-True, validation split-^0.1) 


7.7 语义 分 割 与 场景 理解 

在 前 面 的 内 容 中 ， 者 重 于 分 割 一 个 或 两 个 特定 的 类 。 但 是 ， 在 某 些 情况 下 ， 需 要 分 割 
图 像 中 的 所 有 类 以 了 解 完整 的 场景 。 例 如 ， 对 于 目 动 芍 驶 汽车 ,重要 的 是 汽车 周围 的 所 有 
物体 都 是 分 割 的 图 像 。 在 下 面 的 内 容 中 ， 出 于 性 能 方面 的 考虑 ， 将 分 割 一 个 类 。 但 是 ,， 通 
过 这 个 网 络 ， 可 以 耳 接 扩展 到 多 个 类 别 。 将 使 用 的 网 络 染 构 称 为 全 卷 积 网 络 ， 因 为 在 模型 
中 只 使 用 卷 积 层 。 将 使 用 VGG16 和 TensorFlow 框架 的 预 训练 网 络 权 重 。 


如 何 去 做 … 
1 ) 首先 ， 从 加 载 函 数 库 开始 ， 如 下 所 示 : 


import os 
import glob 
import tensorflow as tf 
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2) 因为 这 里 的 任务 比 输出 预测 类 稍微 复杂 一 些 ， 所 以 需要 定义 一 个 从 不 同 网 络 层 取 值 
2 


def extract layers(vgg layer3 out, vgg layer4 out, 
vgg layer?7 out, n classes): 
decode layerí preskipO = 
tf.layers.conv2d transpose(vgg layer/ out, 
512, (2, 2), (2, 2), name-'decode layer1, preskipO') 
decode layerí preskip1 = tf.layers.conv2d(vgg layer4 out, 
512, (1, 1), (1, 1), name-'decode layer1í1 preskipl1') 
decode layerí out = tf.add(decode layer1 preskipO, 
decode layerí preskip1, name-'decode layerí1 out') 
decode layer2 preskipO = tf.layers.conv2d transpose 
(decode layerí1 out, 256, (2, 2), (2, 2), 
name-'decode layer2 preskipO0') 
decode layer2 preskip1 = tf.layers.conv2d 
(Vag aversos OUL, 2536; Tl 1) (1; 1); 
name-'decode layer2 preskip1') 
decode layer2 out = tf.add(decode layer2 preskipO0, 
decode layer2 preskipí, name-'decode layer2 out') 
decode layer3 out = tf.layers.conv2d transpose 
(decode layer2Z out, 128, (2, 2), (2, 2), name-'decode layer3 out') 
decode layer4 out = tf.layers.conv2d transpose 
(decode layer3 out, 64, (2, 2), (2, 2), 
name-'decode layer4 out') 
decode layerb5 out = tf.layers.conv2d transpose 
(decode layer4 out, n classes, (2, 2), (2, 2), name-'fcn, out') 
return decode layerb5 out 


3) 为 了 有 效 地 使 用 内 存 ， 将 只 加 载 一 个 具有 如 下 定义 的 批量 生成 带 的 函数 图 像 : 


def batch, generator (batch, size): 
image paths = glob(os.path.join(data path, 'image 2', '*.png!')) 
label paths = ( 
re.sub(r' (lane|road) ', ' ', os.path.basename(path)): path 
for path in glob(os.path.join(data, path, 
"Gr mage 2'. * road *.png'933J 
background color = np.array([255, 0, 0]) 


random.shuffle(image paths) 
for batch i in range(0, len(image paths), batch size): 
images = [] 
gt images = [] 
for image file in image paths[batch i:batch i 十 
batch size]: 
gt image file - 
label. paths[os.path.basename (image file)] 


image = 
Scipy.misc.imresize(scipy.misc.imread(image file), image shape) 
gt image = scipy.misc.imresize(scipy.misc.imread 


(gt image file), image shape) 


gt bg 
gt bg = gt bg.reshape(*gt bg.shape, 1) 


gt image = np.concatenate((gt bg, np.invert(gt bqg)), 


axis-2) 


images .append (image) 
gt images.append(gt image) 


yield np.array(images), np.array(gt. images) 


4) 设置 超 参数 : 


n classes = 2 
image shape - 
n epochs - 23 
batch size = 16 


(160, 576) 


5) 现在 ， 开始 训 练 模型 : 


with tf.Session() as sess: 

tf.saved model.loader.load(sess, path, path) 

vgg image input - 
Sess.graph.get tensor, by name('image input:0') 

Vgg. keep prob = sess.graph.get tensor by name('keep prob:0') 


vgg layer3 out = sess.graph.get tensor by name('layer3 out:0') 
vgg layer4 out = sess.graph.get tensor by name('layer4 out:0') 
vgg layer?7 out = sess.graph.get tensor by name('layer/ out:0') 


temp = set(tf.global variables ()) 
out layer = layers(vgg layer3 out, vgg layer4 out, 
vgg layer?7 out, num classes) 


softmax = tf.nn.softmax(out layer, name-'softmax') 

logits = tf.reshape(out layer, (-1, num classes), 
name-'logits') 

labels = tf.reshape(correct label, (-1, num classes)) 


cross entropy loss - 

tf.reduce mean(tf.nn.softmax cross entropy with, logits 
(logits-logits, labels-labels)) 
train, op - 


tf.train.AdamOptimizer(learning rate).minimize (cross, entropy. loss) 


np.all(gt image == background color, axis-2) 
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sess.run(tf.variables initializer(set(tf.global variables()) - 
temp)) 
for i in range(n epochs): 
batches = batch generator (batch size) 
epoch loss = 0 
epoch size = 0 
for batch input, batch, label in batches: 
., loss = sess.run([train op, cross entropy loss], 
feed dict-í(input image: batch, input, 
correct label: batch label, 
keep prob: 0.5, 
learning rate: 1e-4]) 
epoch loss += loss * len(batch, input) 
epoch size += len(batch input) 
print ("Loss at epoch {}: {}".format (i, 
epoch_loss/epoch_size)) 


6) EUn, h PRN LER I EIER : 


for image file in glob(os.path.join(data path, 'image 2', 
"E pg rs 

image = scipy.misc.imresize(scipy.misc.imread(image file), 
image shape) 


pred softmax = sess.run( 
[t£.nn.softmax(logits)], 
(keep prob: 1.0, image pl: [image]])) 


pred softmax = pred softmax[0][:, 1].reshape(image shape[0], 
image shape[1]) 
segmentation = (pred softmax > 0.5).reshape(image shape[0], 


image shape[1], 1) 
mask = np.dot (segmentation, np.array([[0, 255, 0, 127]]1)) 
mask = scipy.misc.toimage (mask, mode-"RGBA") 
Street im = scipy.misc.toimage (image) 
Street im.paste(mask, box-None, mask-mask) 


在 图 7.14 中 ， 可 以 看 到 模型 的 输出 。 


N 


图 7.14 预测 道路 图 像 分 割 的 示例 


140 


第 7 章 
计算 机 视觉 


7.8 寻找 人 脸面 部 关键 点 

传统 计算 机 视觉 中 最 常用 的 应 用 之 一 是 检测 图 像 中 的 人 脸 ， 这 为 不 同行 业 提供 了 许多 解决 
方案 。 第 一 步 是 检测 图 像 (或 帧 ) 中 的 面部 关键 点 。 这 些 面部 关键 点 ， 也 称 为 人 脸面 部 标志 ， 
已 被 证 明 在 人 脸 图 像 定位 和 面部 朝向 检测 方面 是 独特 和 准确 的 。HOG + 线性 SVM 等 传统 的 计 
算 机 视觉 技术 和 机 器 学 习 技术 仍然 被 广泛 加 以 使 用 。 在 下 面 的 内 容 中 ， 将 向 读者 展示 如 何 使 用 
深度 学 习 来 做 到 这 一 点 。 具 体 来 说 ， 将 实施 CNN 检测 人 脸面 部 关键 点 。 之 后 ， 将 向 读者 展示 
如 何 使 用 这 些 关键 点 进行 头 部 姿态 估计 、 脸 部 变形 以 及 使 用 OpenCV 进行 跟踪 。 


如 何 去 做 … 
1 ) 首先 导入 所 有 必要 的 函数 库 并 设置 种 子 ， 如 下 所 示 : 


import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt 


from sklearn.model selection import train test split 
import tensorflow as tf 


SEED = 2017 
2) 接 下 来 ， 加 载 数 据 集 并 输出 一 些 数字 : 


DIR = 'Data/faces/' 
training file = pd.read csv(DIR + 'training.csv') 


cols = training file.columns[:-1] 

training file['Image'] = training file['Image'].apply(lambda Image: 
np.fromstring(Image, sep-' ')) 

training file = training file.dropna() 


3) 在 继续 之 前 ， 需 要 重 塑 和 标准 化 数据 : 


img cols = 96 

img rows - 96 

img channels = 1 

n labels = 30 # (x, Y) 对 成 对 15 倍 


X = np.vstack(training file['Image']) 

X = X.reshape(-1, img cols, img. rows, 1) 
y = training file[cols].values 

X = X / 255. 

y =y / 96. 


print (X.shape, y.shape) 
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4) 把 训练 集 随 机 分 成 一 个 训练 集 和 一 个 验证 集 : 


X train, X val, y train, y val = train test split(X, y, 
test size-0.2, random state-SEED) 


5) 绘制 五 个 示例 图 像 并 标记 人 脸面 部 关键 点 ( 见 图 7.15 ): 


plt.figure(figsize-(15, 15)) 


n examples = 5 
for i in range (n examples): 
plt.subplotí(n examples, n examples, i+1) 
rand = np.random.randint(len(X train)) 
img = X train[rand].reshape(img cols, img. rows) 
plt.imshow(img, cmap-'gray') 
kp = y train[rand] 
plt.scatter(kp[0::2] * img.cols, kp[l1::2] * img. rows) 


plrt.showt) 


0 25 50 75 


图 7.15 训练 集 和 标签 的 随机 示例 


6) 现在 可 以 在 一 个 函数 中 定义 网 络 架 构 ， 以 便 可 以 重新 用 它 来 进行 训练 和 测试 : 


def model (data, dropout-21.0): 
conv = tf.nn.conv2d(data, conví1 weights, strides-[1, 1, 1, 1], 
padding-'SAME') 
relu = tf.nn.relu(tf.nn.bias add(conv, convi biases)) 
pool = tf.nn.max pool(relu, ksize-[1, 2, 2, 1], 
strides-[1, 2, 2, 1], padding^-^'SAME') 


conv = tf.nn.conv2d(pool, conv2 weights, strides-[1, 1, 1, 1], 
padding-'SAME!') 

relu = tf.nn.relu(tf.nn.bias add(conv, conv2 biases)) 

pool = tf.nn.max pool(relu, ksize-[1, 2, 2, 1], strides- 

[1, 2, 2, 1], padding-^'SAME!') 


pool shape = pool.get shape().as, list () 
reshape = tf.reshape(pool, [pool shape[0], 
pool shape[1] * pool shape[2] * pool shape[3]1]) 


hidden1 = tf.nn.relu(tf.matmul(reshape, fcí1 weights) + 
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fci biases) 
hiddeni 


tf.nn.dropout(hiddeni, dropout, seed-SEED) 


hidden2 = tf.nn.relu(tf.matmul(hiddeni1, fc2 weights) + 
fc2 biases) 

hidden2 = tf.nn.dropout(hidden2, dropout, seed-SEED) 

output = tf.matmul(hidden2, fc3 weights) + fc3 biases 


return output 


batch_size = 128 
n_epochs = 500 


learning rate = 1e-4 
print, every - 10 
early stopping patience = 5 


8) 在 构建 模型 之 前 ， 需 要 设置 占 位 符 : 


inputs = tf.placeholder(tf.float32, shape-(batch size, 
img cols, img rows, img. channels)) 
targets = tf.placeholder(tf.float32, shape-(batch size, n labels)) 


evals = tf.placeholder(tf.float32, shape- (batch, size, 
img cols, img rows, img channels)) 


convi weights = tf.Variable(tf.truncated normal([5, 5, 
img channels, 32], stddev-20.1,seed-SEED)) 
convi biases = tf.Variable(tf.zeros([32])) 


conv2 weights - tf.Variable(tf.truncated normal([5, 5, 32, 64], 
stddev-0.1, seed-SEED)) 
conv2 biases = tf.Variable(tf.constant(0.1, shape-2[64])) 


fci, weights = tf.Variable(tf.truncated normal([img cols // 
4 * img rows // 4 * 64, 512], stddev-0.1, seed-SEED)) 
fci biases = tf.Variable(tf.constant(0.1, shape-[512])) 


fc2 weights = tf.Variable(tf.truncated normal([512, 512], 
stddev-0.1, seed-SEED)) 

fc2 biases = tf.Variable(tf.constant(0.1, shape-[512])) 

fc3 weights = tf.Variable(tf.truncated normal([512, n labels], 


stddev-0.1, seed-SEED)) 
fc3 biases = tf.Variable(tf.constant(0.1, shape-[n labels])) 


9) 现在 ， 可 以 初始 化 模型 并 开始 训练 ， 包 括 采 用 早 集 方 法 : 
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val size = X val.shape[0] 


train prediction = model(inputs, 0.5) 

loss = tf.reduce mean(tf.reduce sum(tf.square(train prediction 一 
targets), 1)) 

eval prediction = model (evals) 


train step = tf.train.AdamOptimizer(learning rate).minimize(loss) 
init = tf.global, variables, initializer() 
sess = tf.InteractiveSession() 


sess.run(init) 


history = [] 
patience count = 0 
for epoch in range (n epochs): 
for step in range(int(len(X train) / batch size)): 
offset = step * batch size 
batch data = X train[offset: (offset + batch size), ...] 
batch labels = y train[offset: (offset + batch size)] 


feed dict = (inputs: batch data, targets: batch labels) 


_,: loss train = sess.run([train step, loss], 
feed dict-feed dict) 
predictions = np.ndarray(shape-(val size, n labels), 


dtype-2np.float32) 
for begin in range (0, val size, batch size): 
end = begin + batch, size 
if end <= val size: 


predictions[begin:end, :] = sess.run(eval prediction, 
feed dict-í(evals: X val[begin:end, ...])) 
else: 
batch predictions = sess.run(eval, prediction, 
feed dict-[(evals: X val[-batch size:, ...1)) 
predictions[begin:, :] = batch predictions[begin 一 


val size:, :] 
loss val = np.sum(np.power(predictions - y val, 2)) / 
(2 * predictions.shape[0]) 
history.append(loss, val) 
if epoch $ print, every == 
printí('Epoch (1:040): train loss [1:.8fj; 
validation loss í(:.8fj'.format(epoch, loss train, loss, val)) 
if epoch > 0 and history[epoch-1] > historyl[lepoch]: 
patience count = 0 
else: 
patience count += 1 
if patience count > early stopping patience: 
break 


10) 为 了 验证 ， 可 以 用 预测 的 关键 点 和 真 值 来 绘制 一 些 示 例 图 像 ( 见 图 7.16 ): 
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plt.figure(figsize-(15, 15)) 


n examples = 5 
for i in range (n examples): 
plt.subplot (n examples, n examples, i-1) 
rand = np.random.randint í(len(X val)) 
img = X val[rand].reshape(img cols, img rows) 
plt.imshow(img, cmap-'gray!') 
kp = y val[rand] 
pred = predictions[rand] 
plt.scatter(kp[0::2] * img cols, kp[1::2] * img. rows) 
plt.scatter(pred[0::2] * img cols, pred[1::2] * img rows) 


plt.show() 


50 


图 7.16 预测 人 腔 和 实际 人 脸面 部 关键 点 的 示例 


7.9 人 脸 识 别 

在 之 前 的 内 容 中 ， 演 示 了 如 何 使 用 神经 网 络 来 检测 人 脸面 部 关键 点 。 在 下 面 的 内 容 中 ， 
将 展示 如 何 使 用 深度 神经 网 络 来 识别 人 脸 。 通 过 从 头 开始 对 分 类 器 进行 训练 ， 获 得 了 很 大 
的 灵活 性 。 


如 何 去 做 … 
1 ) 像 往常 一 样 ， 从 导 和 函数 库 和 设置 种 子 开始 : 


import glob 

import re 

import matplotlib.pyplot as plt 

import numpy as np 

import cv2 

from sklearn.preprocessing import LabelBinarizer 
from sklearn.model selection import train test split 
from sklearn.metrics import accuracy. score 
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from keras.models import Model 

from keras.layers import Flatten, Dense, Input, 
GlobalAveragePooling2D, GlobalMaxPooling2D, Activation 
from keras.layers import Convolution2D, MaxPooling2D 
from keras import optimizers 

from keras import backend as K 


seed = 2017 


2) 在 下 面 的 步骤 中 ， 加 载 数据 并 输出 一 些 示 例 图 像 来 了 解数 据 ( 见 图 7.17 ): 


DATA DIR = 'Data/lfw/' 
images = glob.glob(DATA DIR + '*/*.Jjpg') 


plt.figure(figsize-(10, 10)) 
n examples = 5 


for i in range(5): 
rand - np.random.randint (len(images)) 


image name = re.search('Data/lfwN/(.*?)N/', images[rand], 
re.IGNORECASE).group(1l).replace(' ', ' ') 
img = cv2.imread(images[rand]) 


img = cv2.cvtColor(img, cv2.COLOR BGR2RGB) 
plt.subplotí(n examples, n examples, i-*1) 
plt.title(image name) 
plt.imshow(img) 

plt.show() 


Andre Agassi Arthur Johnson Alvaro Silva Calderon Anthony Fauci Ariel Sharon 
0 3 0 0 
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图 7.17 人 脸 示 例 图 像 


3) 有 些 人 (标签 ) 有 多 个 图 像 ， 绘 制 这些 图 像 ， 看 看 它们 是 否 相 似 〈 见 图 7.18 ): 
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images arnold = glob.glob(DATA DIR + 
'Arnold Schwarzenegger/*.jpg') 
plt.figure(figsize-(10, 10)) 


for i in range (n examples): 


image name = re.search('Data/lfwN/(.*?2)N/', images arnold[i], 
re.IGNORECASE).group(1).replace(' ', ' ') 
img = cv2.imread(images arnold[il) 


img = cv2.cvtColor(img, cv2.COLOR, BGR2RGB) 
plt.subplotí(n examples, n examples, i+1) 

# plt.title(image name) 
plt.imshow(img) 

plt.show() 


图 7.18 阿诺德: d Boop RJ Ais M 
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4) 图 像 整齐 地 存储 在 每 个 类 (person) 的 单独 文件 夹 中 ， 所 以 可 以 用 一 个 简单 的 正则 
表达 式 来 提取 标签 : 


labels = np.asarray ([re.search('Data/lfw\/(.+?)\/', image, 
re.IGNORECASE).group(1) for image in np.asarray(images)]) 


5 ) 输出 天 于 数据 集 的 一 些 统计 数据 : 


print('Number of images: {}'.format (len(y))) 
print('Number of unique labels: í(j'.format(len(np.unique(1l1abels)))) 


6) 现在 准备 对 标签 进行 预 处 理 : 


encoder = LabelBinarizer() 
encoder.fit (labels) 
y = encoder.transform(labels).astype (float) 
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7) 为 了 验证 模型 ， 将 使 用 20% 的 分 割 来 形成 验证 集 : 


X train, X val, y train , y val = train test split(X, y, 
test size-0.2, random state-seed) 


8) 接 下 来 定义 模型 ， 将 采用 由 著名 VGG16 网 络 所 局 发 的 网 络 架 构 : 


'same'!, 


'same'!, 


input shape = (250, 250, 3) 
img input = Input(shape-input shape) 
inputs = img input 
# 块 1 
x = Convolution2D(64, (3, 3), activation-'relu', padding='same', 
name-'conv1í1 1') (img input) 
x = Convolution2D(64, (3, 3), activation-'relu', padding='same', 
name-'conví 2') (x) 
x = MaxPooling2D((2, 2), strides-(2, 2), name-'pool1') (x) 
# 块 2 
x = Convolution2D(128, (3, 3), activation-'relu', padding- 
name-'conv2 41') (x) 
x = Convolution2D(128, (3, 3), activation-'relu', padding- 
name-'conv2 2') (x) 
x = MaxPooling2D((2, 2), strides-(2, 2), name-'pool12') (x) 
# 块 3 


x = Convolution2D(256, (3, 3), activation-'relu', padding- 
name-'conv3. 1') (x) 

x = Convolution2D(256, (3, 3), activation-'relu', padding- 
name-'conv3 2') (x) 

x = Convolution2D(256, (3, 3), activation-'relu', padding- 
name-'conv3. 3') (x) 

x = MaxPooling2D((2, 2), strides-(2, 2), name-'poo13') (x) 


# 块 4 

x = Convolution2D(512, (3, 3), activation='relu', padding- 
name-'conv4 1') (x) 

x = Convolution2D(512, (3, 3), activation-'relu', padding- 
name-'conv4 2')(x) 


x = Convolution2D(512, (3, 3), activation-'relu', padding- 
name-'conv4 3')(x) 

x = MaxPooling2D((2, 2), strides-(2, 2), name-'pool14') (x) 
# H5 

x = Convolution2D(512, (3, 3), activation-'relu', padding- 
name-'convb5 1') (x) 

x = Convolution2D(512, (3, 3), activation-'relu', padding- 
name-'convb5 2') (x) 

x = Convolution2D(512, (3, 3), activation-'relu', padding- 
name-'convb5, 3') (x) 

x = MaxPooling2D((2, 2), strides-(2, 2), name-'pool5') (x) 


'same', 


'same'!, 


'same', 


'same', 


'same', 


'same', 


'same'!, 


'same'!, 


'same'!, 
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= Dense(len(y[0]), name-'fc8') (x) 
= Activation('relu', name-'fc8/softmax') (x) 


x = Flatten(name-'flatten') (x) 

x = Dense(4096, name-'fc6') (x) 

x = Activation('relu', name-'fcó6/relu'!) (x) 
x = Dense(4096, name-2'fc7') (x) 

x = Activation('relu', name-'fc7/relu'!) (x) 
x 

x 


model = Model(inputs, x) 


opt = optimizers.Adam() 
model.compile(loss-'categorical crossentropy', optimizer-opt, 
metrics-['accuracy!']) 


9) HATIRA AAA BER S B, TEHER BONES ERER TEE HIR 
random shifts 随机 翻转 和 随机 缩放 : 


def random shifts(image, shift max x-100, shift max y-7100): 

width, height, _ = image.shape 
shift x = np.random.randint(shift max x) 
shift y = np.random.randint (shift max y) 
M = np.float32([[1, 0; shift x],[0O, 1, shift yll) 
return (cv2.warpAffine(image, M, (height, width))) 
def random flip(image, p flip-20.5): 

rand = np.random.random() 

if rand < p TLIDp: 

image = cv2.flip(image, 1) 
return image 


def scale image(image, scale range-[0.6, 1.4]): 


width, height, _ = image.shape 

Scale x = np.random.uniform(low-scale range[0], 

high-scale range[1]) 

Scale y = np.random.uniform(low-scale range[0], 

high-scale range[1]) 

Scale matrix = np.array([[scale x, 0., (1. - scale x) * 
width / 2.], [0., scale y, (1. - scale y) * height / 2.1], 


dtype-np.float32) 

return(cv2.warpAffine(image, scale matrix, (width, height), 
flags-cv2.INTER LINEAR, 

borderMode-cv2.BORDER REFLECT 101)) 


10) 人 们 不 想 将 所 有 图 像 加 载 到 内 存 中 ， 所 以 将 实现 一 个 使 用 图 像 增 广 功能 的 批 生成 
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img rows = img cols = 250 
img channels - 3 


def batchgen(x, y, batch size, transform-False): 
# 创建 空 值 numpy 数 组 


images = np.zeros((batch size, img rows, img cols, img channels)) 


class id = np.zeros((batch size, len(y[0]))) 


while 1: 
for n in range (batch, size): 

i = np.random.randint (len (x)) 

X = cv2.imread(x[il) 

X = cv2.cvtColor(x , cv2.COLOR BGR2RGB) 

if transform: 
X = random shifts(x , 10, 10) 
X = random flip(x ) 
X = scale image(x , [0.8, 1,2]) 

images[n] = x. 

class, id[n] = y[i] 


yield images, class id 


11) 对 于 模型 ， 将 定义 以 下 超 参 数 : 


batch size = 32 

n epochs = 1000 

S epoch = 

val steps = (len(X val)/batch, size) 


12 ) 开始 训练 所 建 模 型 : 


train generator = batchgen(X train, y train, batch size, True) 
val generator = batchgen(X val, y val, batch size, False) 


history = model.fit generator (train, generator, 
steps per epoch-2s epoch, 
epochs-n, epochs, 
validation data-val generator, 
validation steps = val, steps, 
verbose-1 


13) 现在 ,看 看 所 建 模 型 如 何 执 行 并 绘制 一 些 结果 ( 见 图 7.19 ): 


test generator = batchgen(X val, y val, batch size, False) 


preds - model.predict generator(test generator, steps-1) 
y val = [np.argmax(x) for x in y val] 
y preds = [np.argmax(x) for x in preds] 


accuracy score(y val , y preds) 
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Alexa Loren Alexa Hammoud Abel Aguilar Andy Bryant Abdoulaye Wade 


(Alexa Loren) (Ali Hammoud) (Abel Aguilar) (Andy Bryant) (Abdoulaye Wade) 


图 7.19 测试 集 上 的 预测 图 像 示 例 


如 有 条 想 添加 新 的 人 脸 到 模型 ， 可 以 使 用 微调 来 调整 已 训练 模型 的 权重 。 更 具体 地 说 ， 
在 对 新 例子 进行 训练 时 ， 将 使 用 稍 小 的 学 习 率 。 在 第 14 章 ” 预 训练 醒 型 ”中 ， 将 演示 如 何 
对 此 方案 中 的 训练 模型 进行 微调 。 


7.10 ”将 样式 转换 为 图 像 

在 过 去 的 几 年 中 ， 由 于 深度 学 习 将 风格 从 一 个 图 像 转移 到 为 一 个 图 像 已 经 有 了 巨大 的 
性 能 提升 。 许 多 人 壬 试 将 菏 种 风格 ， 通 常 是 从 闭 名 男 家 的 风格 转移 到 照片 上 。 由 此 产生 的 
图 像 往往 是 有 趣 的 ， 因 为 它们 显示 了 画家 的 风格 和 原始 图 像 之 间 的 混合 。 在 下 面 的 内 容 中 ， 
将 回 读 者 展示 如 何 使 用 VGG16 的 预 训练 权重 将 一 幅 图 像 的 样式 转换 为 另 一 幅 图 像 的 样式 。 


如 何 去 做 … 
1 ) 从 导入 所 需 的 函数 库 开 始 ， 如 下 所 示 : 


from keras.preprocessing.image import load, img, img to array 
from scipy.misc import imsave 

import numpy as np 

from scipy.optimize import fmin, l bfgs b 

import time 

import argparse 


from keras.applications import vggí60 
from keras import backend as K 


2) 接 下 来 ， 加载 将 用 于 样式 转换 的 两 个 图 像 并 绘制 它们 ( 见 图 7.20 ): 


base image path = 'Data/golden, gate.Jjpg' 
style reference image path = 'Data/starry night.Jjpg' 
result, prefix = 'result ' 


width, height = load img(base image path).size 


img rows = 400 
img cols = 600 
img channels = 3 


plt.figure(figsize-(15, 15)) 
plt.subplort(2, 27 1) 
img = load img(base image. path) 
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plt.imshow (img) 

Slt SuUDDlOLD0.:.2. A) 

img = load img(style reference image path) 
plt.imshow(img) 

plt.show() 
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图 7.20 用 于 样式 转换 的 输入 图 像 〈 左 图 为 原始 图 像 ; 右 图 为 样式 参考 图 像 ) 


3 ) 定义 两 个 可 以 预 处 理 和 处 理 图 像 的 函数 : 


def preprocess, image (image path): 


img = load img(image path, target size-(img rows, img. cols)) 
img = img. to array(img) 
img = np.expand dims (img, axis-0) 


img = trained model.preprocess, input (img) 
return img 


def deprocess image (x): 
x — x.reshape((img rows, img cols, img channels)) 
x[:, :, 0] += 103.939 
x[:, :, 1] += 116.779 
x[:, :, 2] += 123.68 
x = X[:, :, ::—1] 
x = nupolipix, 0, 255) .88Ltypei"'uinte9') 
return x 


4) 现在 定义 所 需要 的 训练 占 位 符 : 


base image = K.variable(preprocess image (base_image_path)) 
Style reference image = K.variable(preprocess image 

(style reference image path)) 

combination image = K.placeholder((1, img rows, img cols, 3)) 
input tensor - K.concatenate([base image, 

Style reference image, combination image], axis-0) 
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5) SEA VGG16 模型 ， 并 为 模型 的 体系 结构 创建 一 个 字典 : 
model = vggí16.VGG16(input tensor-input tensor, weights-'imagenet', 
include top-False) 
model dict = dict([(layer.name, layer.output) 


for layer in model.layers]) 


6) XI FURSEEE, TEE X REB BEA 


def gram matrix(x): 
features = K.batch flatten(K.permute dimensions(x, (2, 0, 1))) 
gram = K.dot(features, K.transpose(features)) 
return gram 


def style loss(style, combination): 
assert K.ndim(style) -- 
assert K.ndim(combination) == 3 
S = gram matrix(style) 
C = gram matrix(combination) 
channels = 3 
Size = img nrows * img ncols 
return K.sum(K.square(S - C)) / 
(4. * (channels xx 2) * (size ** 2)) 


def content loss(base, combination): 
return K.sum(K.square(combination - base)) 


def total variation. loss (x): 


a — K.square(x[:, :img nrows - 1, :img ncols - 1, :] - 
xis; l9, 41mg BnocolsS =~ l; x] 

b = K.square(x[:, iamq nrows — 1, :img-ncols — 1; t] 一 
XL: Lng nrowe = I. l:i; £L) 


return K.sum(K.pow(a * b, 1.25)) 


total variation weight = 1.0 
Style weight = 1.0 

content weight = 0.25 
iterations = 10 


8) f Po, mA E DUST PRBOR Bas VILE D TRO B) 88 A. : 
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loss = K.variable(0.) 

layer features = model dict['blockb5 conv2'!] 

base image features = layer features[O, :, :, :] 
combination features - layer features[2, :, :, :] 


loss += content weight * content loss(base image features, 
combination features) 


feature layers = ['blocki1 conví1', 'block2, conv1', 
"block3 convl', 'block4 convi', *'block5 convi'] 
for layer name in feature layers: 

layer features - model dict[layer name] 


style reference features = layer features[1, :, :, :] 
combination features - layer features[2, :, :, :] 

sl = style loss(style reference features, combination features) 
loss += (style weight / len(feature layers)) * sl 


loss += total variation weight * 
total variation loss (combination, image) 


grads = K.gradients(loss, combination image) 
outputs - [loss] 
if isinstance(grads, (list, tuple)): 
outputs += grads 
else: 


outputs .append (grads) 


f outputs = K.function([combination image], outputs) 


9 ) 还 需要 定义 函数 来 评 信 和 损失: 


def eval loss and, grads (x): 


x — x.reshape((1, img nrows, img ncols, 3)) 
outs = f outputs([x]) 
loss value = outs[0] 


if len(outs[1:]) == 
grad values = outs[1].flatten().astype('float64"') 
else: 
grad values - 
np.array(outs[1:]).flatten().astype('floato4') 
return loss, value, grad values 


class Evaluator (object): 
def _ init (self): 


self.loss value = None 
self.grads values - None 
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def loss(self, x): 
assert self.loss value is None 


loss, value, grad values = eval loss, and grads (x) 
self.loss, value = loss, value 
self.grad, values = grad values 


return self.loss value 


def grads(self, x): 
assert self.loss value is not None 


grad, values = np.copy(self.grad values) 
self.loss value = None 
self.grad values = None 


return grad, values 


evaluator = Evaluator() 


10) FEAR RA R ARAR R (C ILES 7.21): 


x = preprocess_image (base_image_path) 


for i in range (iterations): 

printa) 

x, min val, info = fmin_l_bfgs_b (evaluator.loss, x.flatten(), 
fprime=evaluator.grads, maxfun=20) 


print('Current loss value:', min, val) 


img = deprocess, image (x.copy()) 

fname = result prefix + ' at iteration $d.png' $ i 
plt.imshow(img) 

plt.show() 
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图 7.21. 和 迭代 10 次 后 转换 样式 的 示例 
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KEBER Eg XCANGBGSABERURHOSBUPQZE. EROI RERA, KEAN 
文本 数据 存储 相关 的 方法 : 

。 情 绪 分 析 ; 

。 人 句子 翻译 ; 

。 文 本 摘要 。 


8.1 简介 

深度 学 习 另 一 个 革命 性 的 领域 是 自然 语言 处 理 (NLP )。 这 场 革 命 主 要 由 RNN 的 发 表 
而 引起 ， 但 CNN 在 处 理 文本 时 也 被 证 明 是 有 价值 的 。 深 度 学 习 可 被 用 于 许多 不 同 的 NLP 
场景 中 ， 从 分 析 Twitter 供稿 中 的 情感 分 析 到 文本 摘要 。 本 章 将 向 读者 展示 如 何 应 用 深度 学 
习 来 解决 这 些 问题 。 


8.2 情绪 分 析 

在 这 个 时 代 ， 有 越 来 越 多 的 数据 产生 ， 尤 其 是 每 个 人 都 可 以 在 互联 网 上 发 表 目 己 的 观 
点 ， 大 规模 自动 分 析 这 些 帖 子 的 价值 对 企业 和 政策 来 说 是 非常 重要 的 。 在 第 4 音 ”递归 神 
经 网 络 中 ,已 经 展示 了 如 何 应 用 RNN 和 LSTM 神经 元 对 短 句 进行 分 类 ， 比 如 电影 评论 。 
在 下 面 的 内 容 中 ， 将 通过 对 Twitter 消息 的 情感 进行 分 类 来 逐渐 进行 复杂 性 分 析 。 本 章 将 通 
过 预测 二 进 制 类 和 细 粒 度 类 来 实现 这 一 点 。 


如 何 去 做 … 
1 ) 首先 导入 所 需 函 数 库 ， 如 下 所 示 : 


from nltk.tokenize import word tokenize 
from nltk.stem import WordNetLemmatizer 
import numpy as np 

import random 

import pickle 

from collections import Counter 


import tensorflow as tf 


162 


2) 接 下 来 , 用 NItk BAREA, JEJE XE 9T Z2 BU TUR PE PEU : 


lemmatizer - WordNetLemmatizer() 


pos 
neg 
def 


def 


= '../Data/positive.txt' 
= '../Data/negative.txt' 
create lexicon(pos, neg): 


lexicon = [] 
for fi in [pos, neg]: 
with open(fi, 'r') as f: 
contents = f.readlines() 
for L im oconbtents[I:s100000D0]4 
all words = word tokenize(l.lower()) 
lexicon += list(all words) 
lexicon = [lemmatizer.lemmatize(i) for i in lexicon] 
w counts = Counter(lexicon) 
12 -[] 


for w in w counts: 
if 1000 » w counts[w] » 50: 
12.append(w) 
return 12 
sample handling(sample,lexicon,classification): 
featureset = [|] 
with opení(í(sample,'r') as f: 
contents = f.readlines() 
for l in contents[:10000000]: 
current words - word tokenize(l.lower()) 
current words - [lemmatizer.lemmatize(i) for i in 
current words| 
features = np.zeros(len(lexicon)) 
for word in current words: 
if word.lower() in lexicon: 
index value = lexicon.index(word.lower()) 
features[index value] += 1 
features - list(features) 
featureset.append([features,classification]) 
return featureset 


3) 接 下 来 ， 按 如 下 步 桑 处理 数据 : 


lexicon = create lexicon(pos,neg) 

features = [| 

features += sample handling(pos, lexicon,[1,0]) 
features += sample handling(neg, lexicon,[0,1]) 
random.shuffle(features) 

features = np.array(features) 


第 8 章 
自然 语言 处 理 


103 


Python 深度 学 习 实 战 : 
75 个 有 关 神 经 网 络 建 模 、 强 化 学 习 与 迁移 学 习 的 解决 方案 


testing size = int(0.1*len(features)) 

X train = list(features[:,0][:-testing size]) 
y train - list(features[:,1][:-testing size]) 
X test = list(features[:,0][-testing size:]) 
y test = list(features[:,1][-testing. size:]) 


4) 在 实现 模型 之 前 ， 需 要 设置 超 参数 : 


n epochs = 10 
batch size - 128 
h1 = 500 
h2 = 500 
n classes 


I 
N 


5) 接 下 来 ,定义 输入 占 位 符 ， 对 权重 和 偏 置 参数 进行 初始 化 : 


x input = tf.placeholder('float') 
y input = tf.placeholder('float') 


hidden 1 = [('weight':tf.Variable(tf.random normal([len(X train[0]), 
h1])), 
'bias':tf.Variable(tf.random normal([h1]))? 


hidden 2 = ('weight':tf.Variable(tf.random normal([h1, h2])) 


'bias':tf.Variable(tf.random normal([h2])) 
output layer = ('weight':tf.Variable(tf.random normal([h2, 
n classes])), 
'bias':tf.Variable(tf.random normal([n classes])),!) 


6) EWR, TRA NUS, AW: 


11 = tf.add(tf.matmul(x input, hidden 1['weight']), 

hidden 1['bias']) 

11 = tf.nn.relu(11) 

12 = tf.add(tf.matmul(11, hidden 2'weight']), hidden 2['bias']) 
12 = tf.nn.relu(12) 

output = tf.matmul(12, output layer['weight']) 十 

output layer['bias'] 


loss - 
tf.reduce mean(tf.nn.softmax cross entropy with logits(logits-outpu 


t, labels-y input)) 
opt = tf.train.AdamOptimizer().minimize(loss) 


7) 最 后 ， 开 始 训 练 模 型 : 


164 


第 8 章 


自然 语言 处 理 

with tf.Session() as sess: 
sSess.run(tf.global variables initializer()) 

for epoch in range (n epochs): 

epoch loss = 0 

i = 0 

while i < len(X train): 

start = i 

end = i + batch_size 

batch x = np.array(X train[start:end]) 

batch y = np.array(y train[start:end]) 

_ batch loss = sess.run([opt, loss], feed dict-í(x input: batch x, 


y.input: batch v]) 
epoch loss += batch loss 
i += batch, size 


print('Epoch (): loss {}'.format (epoch, epoch loss)) 


8.3 ”句子 翻译 

得 益 于 几 个 大 型 搜索 引擎 ， 次 度 和 学 习 在 文本 中 的 另 一 个 应 用 在 性 能 和 知名 度 方面 得 到 
了 提高 。 翻 译 句 子 是 一 项 艰巨 的 任务 ， 因 为 每 种 语言 都 有 目 己 的 规则 、 例 外 和 表达 方式 。 
人 们 往往 遗忘 的 是 ， 词 语 的 翻 详 在 很 大 程度 上 取决 于 语 境 。 一 些 人 认为 ， 彻 底 解 决 语言 问 
题 可 能 是 实现 普通 人 工 智能 的 一 个 巨大 里 程 碑 ， 因 为 智能 和 语言 是 相互 关联 的 ， 语 言 中 的 
细微 差别 对 理解 是 至 关 重 要 的 。 

在 下 面 的 内 容 中 ， 将 展示 如 何 使 用 序列 到 序列 模型 将 英语 翻译 成 法 语 ， 将 使 用 CNTK 


框架 O 


如 何 去 做 … 
1 ) 开始 加 载 函 数 库 : 


import numpy as np 
import os 


from cntk import Trainer, Axis 
from cntk.io import MinibatchSource, CTFDeserializer, StreamDef, 
StreamDefs, INFINITELY REPEAT 
from cntk.learners import momentum sgd, fsadagrad, 
momentum as time constant schedule, learning rate schedule, 
UnitType 
from cntk import input, cross entropy with softmax, 
classification error, sequence, 

element select, alias, hardmax, placeholder, 
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combine, parameter, times, plus 

from cntk.ops.functions import CloneMethod, load model, Function 
from entk.initializer import glorot, üunsform 

from cntk.logging import log number of parameters, ProgressPrinter 
from cntk.logging,graph import plot 

from cntk.layers import * 

from cntk.layers.sequence import * 

from cntk.layers.models.attention import * 

from cntk.layers.typing import * 


2) 首先 ， 需 要 加 载 所 使 用 的 数据 集 ， 它 包含 瑞生 和 法 请 句 子 : 


data eng = '../Data/translations/small, vocab en' 

data fr = '../Data/translations/small vocab fr' 

with open(data eng, 'r', encoding-"'utf-8') as f: 
sentences, eng - f.read() 

with open(data fr, 'r', encoding-^'utf-8') as f: 
sentences, fr - f.read() 


3) 输出 关于 数据 集 的 一 些 统计 数据 : 


word counts = [len(sentence.split()) for sentence in sentences eng] 
print('Number of unique words in English: [()'.format(len((word: None for 
word in sentences eng.lower().split())))) 


print ('Number of sentences: í])'.format(len(sentences eng))) 
print('Average number of words in a sentence: 
iRj'.format (np.average (word, counts))) 


n examples = 5 

for i in range (n examples): 
print ('\nExample í(j'.format(i)) 
print (sentences_eng.split('\n')[i]) 
print (sentences_fr.split('\n')[i]) 


4) 需要 为 两 种 语言 创建 查找 表 : 一 个 用 于 词汇 到 整数 的 表 列 ; 另 一 个 用 于 整数 到 词汇 
的 表 列 。 通 过 定义 晒 数 create lookup tables 来 执行 此 操作 : 
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def create lookup tables (text): 
vocab = set(text.split()) 
vocab to int e {'<S>"': 0, ‘<E>': 1, '<UNK>': 2, '<PAD>': 3 } 


for i, v in enumerate(vocab, len (vocab to int)): 
vocab to int[v] = i 


int to vocab = (i: v for v, i in vocab to int.items()! 
return vocab to int, int to vocab 

vocab to int eng, int to vocab eng - 

create lookup tables (sentences eng.lower()) 


vocab to int fr, int to vocab fr - 
create lookup. tables (sentences fr.lower()) 


5) 现在 已 经 准备 好 了 所 有 的 查找 表 ， 可 以 开始 转换 输入 ( 瑞 语 句子 ) 和 目标 (法 语句 
F) 数据 了 : 


def text to ids(source text, target text, source vocab to int, 
target vocab to int): 


Source id text - [[source vocab to int[word] for word in 

sentence.split()] for sentence in source text.split('n')] 
target id text = [[target vocab to int[word] for word in 
sentence.split()]-*[target vocab to int['«E»']] for sentence 


in target text.split('Mn')] 
return source id text, target id text 


X, y = text to ids(sentences eng.lower(), sentences fr.lower(), 
vocab to int eng, vocab to int, fr) 


6) 在 定义 模型 之 前 ， 需 要 定义 超 参数 : 


input, vocab dim = 128 
label vocab dim = 128 
hidden dim - 256 


n layers = 2 
attention dim = 128 
attention span - 12 


embedding dim = 200 

n epochs - 20 
learning rate - 0.001 
batch size = 64 


7) 对 于 模型 要 定义 一 个 函数 。 在 create model KA P, £25 Embedding (WA J 
Stabilizer ( faxE 28 ), LSTM 层 和 AttentionModel (关注 模型 ): 
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def create model (n_ layers): 
embed = Embedding (embedding dim, name-'embed') 


LastRecurrence - C.layers.Recurrence 
encode = C.layers.Sequential([ 
embed, 


C.layers.Stabilizer(), 
C.layers.For(range(num layers-1), lambda: 
C.layers.Recurrence (C.layers.LSTM (hidden dim\\\ 
LastRecurrence(C.layers.LSTM(^^?24-7- 47-7 PRU ER 
return full state-True), 
(C.layers.Label('encoded h'), C.layers.Label('encoded c')), 
]) 


with default options (enable self stabilization-True): 


stab in = Stabilizer() 

rec blocks = [LSTM(hidden dim) for i in range(n layers)] 
stab out = Stabilizer() 

out = Dense(label vocab dim, name-'out') 


attention model - AttentionModel(attention dim, None, None, 
name-'attention model') 


aFunction 

def decode(history, input): 
encoded input = encode (input) 
r = history 
r = embed(r) 
r = stab in(r) 


for i in range (n layers): 


rec block = rec blocks[i] 

aFunction 

def lstm with attention(dh, dc, x): 
h att - 


attention model (encoded input.outputs[0], dh) 
x = Splice(x, hh att) 


return rec block (dh, dc, x) 


r — Recurrence(lstm with attention) (r) 
r = Stab. out (r) 
r = out (r) 
r = Label('out') (r) 


return r 


return decode 
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8) 定义 损失 函数 : 


def create loss function (model): 


QFunction 
aSignature(input = InputSequence[Tensor[input vocab dim]], 
labels = LabelSequence[Tensor[label vocab dim]]) 
def loss (input, labels): 
postprocessed labels = sequence.slice(labels, 1, 0) 
z = model (input, postprocessed labels) 
ce = cross_entropy_with_softmax(z, postprocessed labels) 
errs = classification error (z, postprocessed_labels) 


return (ce, errs) 
return loss 


9) 最 后 ， 开 始 训练 : 


model = create model (n layers) 

loss = create loss function (model) 

learner - fsadagrad(model.parameters, 
lr = learning rate, 
momentum = 


momentum as time constant schedule(1100), 
gradient clipping threshold per sample-2.3, 
gradient clipping with truncation-True) 
trainer = Trainer(None, loss, learner) 


total samples - O0 
n batches = len(X)//batch, size 


for epoch in range (n epochs): 
for i in range (n, batches): 
batch, input = train reader.next minibatch(minibatch, size) 
trainer.train minibatch(batch input[train reader.streams.features], 
batch, input[train reader.streams.labels]) 


8.4 文本 摘要 

阅读 理解 ( RC ) 是 阅读 文本 、 处 理 文本 并 理解 其 含义 的 能 力 。 总 结 有 两 种 类 型 : 提 
取 和 抽象 。 提 取 摘 要 可 以 识别 重要 的 文字 ， 并 将 其 余部 分 丢弃 ， 从 而 缩短 文章 的 篇 幅 。 根 
据 现实 情况 ， 由 于 文本 是 从 不 同 的 段落 中 摘 取 的 ， 因 此 听 起 来 可 能 会 让 人 感到 奇怪 和 不 连 
贯 。 抽 象 概括 要 困难 得 多 ， 它 需要 模型 更 深入 地 理解 文本 和 语言 。 在 下 面 的 内 容 中 ， 将 使 
用 TensorFlow 框架 实现 文本 摘要 算法 。 


如 何 云 做 … 
1 ) 首先 加 载 所 有 必要 的 函数 库 ， 如 下 ， 
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import numpy as np 
import tensorflow as tf 


2) 其 次 ， 加 载 文 本 数据 : 


article filename = 
'Data/summary/"Data/sumdata/train/train.article.txt' 
title filename - 'Data/summary/"Data/sumdata/train/train.title.txt' 


with open(article rilename) as article file: 
articles - article file.readlines() 

with open(title filename) as title file: 
titles = title file.readlines() 


3) N TERERAA n]EEVE, vu EXE XC T PROC. "EON PCRSOBUSITRIE de 9181] £8 — 
FEWR, ZIRIA : 


def create_lookup_tables (text): 
vocab = set(text.split()) 
vocab_to_int = {'<S>': 0, '<E>': 1, '<UNK>': 2, '«PAD»': 3 i 


for i, v in enumerate (vocab, len(vocab to int)): 
vocab to int[v] = i 


int to vocab = (i: v for v, i in vocab to int.items()! 
return vocab to int, int to vocab 

vocab to int article, int to vocab article - 

create lookup tables(articles.lower()) 


vocab to int title, int to vocab title - 
create lookup tables(titles.lower()) 


4) 接 下 来 ,转换 输入 数据 ( 文 草 ) 和 目标 数据 (标题 ): 


def text to ids(source text, target text, source vocab to int, 
target vocab to int): 


Source id text - [[source vocab to int[word] for word in 

sentence.split()] for sentence in source text.split('n!)] 
target id text - [[target vocab to int[word] for word in 

Sentence.split()]-*[target vocab to int['«E»']] for sentence in 


target text.split('Mn')] 
return source id text, target id text 


X, y — text to ids(articles.lower(), titles.lower(), 
vocab to int articles, vocab to int titles) 


170 


第 8 章 
自然 语言 处 理 


w 
Wu 


5) 在 定义 模型 之 前 ， 逢 要 设置 超 


learning rate = 0.001 
hidden units = 400 
embedding size - 200 


n layers = 1 
dropout = 0.5 
n iters - 40 


6 ) 将 使 用 一 个 双向 模型 ， 为 此 定义 一 个 前 向 和 一 个 后 向 的 骨 入 ， 并 应 用 一 个 Dropout 


封装 ， 


encoder forward cell = tf.contrib.rnn.GRUCell(state size) 
encoder backward cell = tf.contrib.rnn.GRUCell(state size) 
decoder cell = tf.contrib.rnn.GRUCell(state size) 


encoder forward cell - 
tf.contrib.rnn.DropoutWrapper (encoder. forward cell, 
output keep prob = (1-dropout)) 

encoder backward cell - 
tf.contrib.rnn.DropoutWrapper (encoder backward cell, 


output keep prob = (1-dropout)) 
decoder cell = tf.contrib.rnn.DropoutWrapper (decoder cell, 
output keep prob = (1-dropout)) 


7) 接 下 来 ， 将 所 有 元 素 闪 加 在 一 起 : 


with tf.variable scope("seq2seq", dtype-dtype): 
with tf.variable scope("encoder"): 


encoder embedding = tf.get variable("embedding", 
[source vocab size, embedding size],initializer-embedding init) 
encoder inputs embedding = 
tf.nn.embedding lookup(encoder embedding, self.encoder inputs) 
encoder outputs, encoder states - 
tf.nn.bidirectional, dynamic rnn(encoder forward, cell, 
encoder, backward cell, encoder inputs, embedding, 
Sequence length-self.encoder len, dtype-dtype) 


with tf.variable scope("init state"): 
init state - fc layer( 
tf.concat(encoder states, 1), state size) 
# bidirectional dynamic rnn 网 络 现状 奇特 
+ 无 需 定义 batch_size (批量 大 小 ) 


self.init state = init state 
self.init state.set shape([self.batch size, state size]) 
self.att states - tf.concat(encoder outputs, 2) 


self.att states.set shape([self.batch size, None, 
state size*2]) 
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with tf.variable scope ("attention"): 

attention = tf.contrib.seq2seq.BahdanauAttention( 
State size, self.att states, self.encoder len) 

decoder cell = tf.contrib.seq2seq.DynamicAttentionWrapper( 
decoder cell, attention, state size * 2) 

wrapper state - 

tf.contrib.seq2seq.DynamicAttentionWrapperState( 

sSelf.init state, self.prev att) 


with tf.variable scope("decoder") as scope: 


decoder emb = tf.get variable("embedding", 
[target vocab size, embedding size],initializer-emb init) 


decoder cell - 
tf.contrib.rnn.OutputProjectionWrapper (decoder. cell, 
target vocab size) 


decoder inputs, emb = tf.nn.embedding lookup (decoder. emb, 
self.decoder inputs) 


helper - 
tf.contrib.seq2seq.TrainingHelper (decoder. inputs, emb, 
self.decoder len) 

decoder = tf.contrib.seq2seq.BasicDecoder (decoder cell, 
helper, wrapper. state) 


outputs, final state - 
tf.contrib.seq2seq.dynamic, decode (decoder) 


outputs, logits = outputs[0] 
self.outputs = outputs, logits 


weights = tf.sequence mask(self.decoder, len, 
dtype-tf.float32) 


loss t = tf.contrib.seq2seq.sequence loss(outputs logits, 
self.decoder targets, weights, average across timesteps-False, 
average across batch-False) 

self.loss = tf.reduce sum(loss t) / self.batch size 


params = tf.trainable variables () 

opt = tf.train.AdadeltaOptimizer(self.learning. rate, 
epsilon-1e-6) 

gradients = tf.gradients(self.loss, params) 

clipped gradients, norm = tf.clip by global, norm(gradients, 
max gradient) 

self.updates = opt.apply gradients (zip (clipped gradients, 
params), global step-self.global, step) 


8) 在 开始 训练 之 前 ， 需 要 一 个 能 够 检索 正确 批 次 的 函数 : 
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def get batches(int text, batch size, seq length): 
n batches = int(len(int text) / (batch size * seq length)) 


inputs - np.array(int text[: n batches * batch size * 
seq length]) 
outputs = np.array(int text[1: n batches * batch size * 


seq length + 1]) 


x = np.split(inputs.reshape (batch size, -1), n batches, 1) 
y = np.split(outputs.reshape (batch size, -1), n batches, 1) 


return np.array(list(zip(x, y))) 


9 ) 现在 准备 训练 : 


with tf.Session() as sess: 


model = create model(sess, False) 
loss = 0.0 
current step - sess.run(model.global step) 


while current step <= n iters: 
rand = np.random.random sample () 
bucket id = min([i for i in range(len(train buckets, scale)) 
if train, buckets scale[i] > rand]) 


encoder inputs, decoder inputs, encoder len, decoder len - 
model.get batches(train set, bucket id) 

Step loss, _ = model.step(sess, encoder inputs, 

decoder inputs, encoder len, decoder len, False, 

train writer) 

loss += step loss * batch size / np.sum(decoder., len) 

current step += 1 


站 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 


正如 在 本 章 中 所 展示 的 那样 ， 可 以 用 相对 较 小 的 数据 集 取得 很 好 的 结果 。 


A d 
AAS 


然 


而 ， 理 解 语言 是 一 项 复杂 的 工作 ， 为 了 理解 语言 中 的 所 有 细小 的 内 容 ， 人 们 应 


该 以 TB 级 的 训练 数据 来 训练 他 们 的 模型 。 对 于 诸如 在 某 一 地 区 从 一 种 语言 翻 


译 到 另 一 种 语言 的 子 任务 〈 例 如 游客 讲话 )， 相 对 较 小 的 训练 集 和 堆 晤 的 RNN 


模型 可 以 很 好 地 工作 。 


| 
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本 章 介绍 与 流 数据 处 理 有 关 的 内 容 ， 包 括 来 目 IoT 传 感 带 的 首 频 、 视 频 、 帧 序列 和 数据 。 
。 从 零 开始 实现 堵 音 识别 流程 ; 

* 使 用 语音 识别 技术 辨别 演讲 人 

。 使 用 这 度 学 习 理 解 视 频 。 


9.1 简介 

在 本 章 ， 将 重点 关注 流 式 数 据 ， 而 不 是 静态 数据 。 具 体 而 言 ， 就 是 时 间 元 素 在 数据 分 
布 (例如 语音 和 视频 ) 中 起 关键 作用 的 数据 。 在 处 理 这 种 数据 时 ， 输 入 数据 的 分 布 经 常会 
随 着 时 间 的 推 欧 而 迅速 变化 。 例 如 ， 在 传 感 带 数据 中 ， 可 以 在 高 峰 时 段 有 一 个 小 峰值 ， 并 
昌 在 运动 游戏 的 视频 中 可 以 有 很 多 变化 。 数 据 类 型 的 男 一 个 挑战 是 训练 数据 集 的 大 小 。 用 
于 视频 分 类 的 数据 集 通常 大 于 100 GB， 这 意味 着 计算 能 力 至 关 重要 。 


9.2 ”从 零 开 始 实现 语 痛 识别 流程 

语音 识别 ， 也 称 其 为 自动 语音 识别 (ASR) 和 语音 -文本 (STT / S2T )， 这 有 着 悠久 
的 历史 。 传 统 的 人 工 智能 方法 已 经 在 工业 界 使 用 了 很 长 时 间 。 然 而 ， 随 着 最 近 对 次 度 学 习 
的 兴趣 ， 语 首 识别 在 性 能 上 得 到 了 新 的 提升 。 世 界 上 许多 科技 公司 都 对 语音 识别 感 兴趣 ， 
因为 它 可 以 用 于 不 同 的 应 用 程序 ， 例 如 谷歌 语音 搜索 、 苹 果 公司 的 Siri 和 亚马逊 的 Alexa. 

许多 公司 使 用 预 训 练 的 语音 识别 软件 。 但 是 ， 在 下 面 的 内 容 中 ， 将 演示 如 何 从 头 开 始 
实现 和 训练 语音 识别 流程 。 这 个 新 训练 模型 的 精度 将 低 于 业内 使 用 的 模型 。 主 要 原因 是 训 
练 数据 的 质量 和 数量 对 精度 起 看 至 关 重 要 的 作用 。 有 趣 的 是 ， 有 大 量 的 训练 数据 〈 效 千 小 
时 的 开源 数据 ) 可 供 使 用 。 此 外 ， 许 多 ( 在线 ) 视频 有 字幕 ， 可 用 于 训练 。 

这 里 将 使 用 一 个 数据 集 ， 其 中 包含 不 同人 的 零 到 九 个 口头 数字 的 发 彰 。 这 些 文件 采 
用 .wav 格式 ， 标签 和 演讲 者 包含 在 文件 名 中 。 为 了 实现 语音 识别 模型 ， 将 使 用 Keras HE, 


如 何 去 做 … 
1) 首先 导入 Keras 和 其 他 库 ， 如 下 所 示 : 
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import. glob 

import numpy as np 

import random 

import librosa 

from sklearn.model selection import train test split 


import keras 

from keras.layers import LSTM, Dense, Dropout, Flatten 
from keras.models import Sequential 

from keras.optimizers import Adam 

from keras.callbacks import EarlyStopping, ModelCheckpoint 


2) 首先 ， 设 置 训练 文件 的 位 置 ， 为 了 可 再 现 性 ， 还 设置 一 个 种 子 值 : 


SEED = 2017 
DATA DIR = 'Data/spoken numbers. pcm/' 


3) 训练 文件 位 于 一 个 目录 中 ， 将 使 用 批 生成 器 来 检索 它们 。 首 先 将 训练 文件 分 成 训练 
集 和 验证 集 : 


files = glob.glob(DATA DIR + "*.wav") 
X train, X val = train test split(files, test size-0.2, 
random state-SEED) 


print('4 Training examples: í()'.format(len(X train))) 
print('4 Validation examples: í)'.format(len(X val))) 


4) TEZETTTIERE PETRA E CA BU, m RAE XL ECT HR. 


n features - 20 
max length = 80 
n classes = 10 


5 ) 确保 使 用 的 .wav 文件 全 部 标准 化 为 相同 的 长 度 。 
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6 ) 批 处理 生 成 带 应 该 返回 一 批 预 处 理 的 wav 文件 及 其 标签 : 


def batch generator(data, batch size-16): 


while 1: 
random.shuffle(data) 
X, y = [], I] 
for i in range (batch size): 
wav = data[i] 
wave, sr = librosa.load(wav, mono-True) 
label = one hot encode(int(wav.split('/')[-1][0]), 


n classes) 
y.append (label) 


mfcc = librosa.feature.mfcc(wave, sr) 
mfcc - np.pad(mfcc, ((0,0), (0, max length- 
len(mfcc[0]))), mode-'constant', constant, values-0) 


X.append(np.array (mfcc)) 
yield np.array(X), np.array(y) 


7) 在 批 生 成 需 中 ， 使 用 了 一 个 dense to one hot PRZX/EJX, one hot encode 标签 ， 这 个 
PRA n] EAE XUN : 


def one hot encode(labels dense, n classes-10): 
return np.eye(n classes)[labels, dense] 


8) 现在 ， 提 有 取 一 个 训练 集 的 例子 来 确定 最 终 的 形状 : 


X example, y example = next (batch, generator(X train, 
batch size-1)) 

print('Shape of training example: [(j'.format(X example.shape)) 
print('Shape of training example label: 

(b'.format(y example.shape)) 


9) 接 下 来 ,在 定义 网 络 结构 之 前 ， 先 定义 超 参 数 : 


learning rate - 0.001 
batch size = 64 

n epochs - 50 

dropout = 0.5 


input shape - X example.shape[1:] 
steps per epoch = 50 


10) AMEH RARER fep AR. ERE IIR Ss S ELT] TRUE SE LSTM 层 ， 如 下 所 示 : 
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model = Sequential() model.add(LSTM(256, return sequences-True, 
input shape-input shape, dropout-dropout)) 

model.add(Flatten()) model.add(Dense(128, activation-'relu!')) 
model.add(Dropout (dropout)) 

model.add(Dense(n classes, activation-'softmax!')) 


11) 作为 损失 函数 ， 使 用 softmax Z LRI RMA : 


opt = Adam(lr-learning rate) 
model.compile(loss-'categorical crossentropy', optimizer-opt, 
metrics-['accuracy']) model.summary() 


为 了 检查 训练 过 程 进度 ， 将 测量 精度 。 
12) 已 经 准备 好 开始 训练 ， 将 把 结果 保存 在 历史 记录 中 : 


history = model.fit generator( 
generator-batch generator(X train, batch, size), 
Steps. per  epoch-steps, per. epoch, 
epochs-n, epochs, 
verbose-1, 
validation data-batch generator(X val, 32), 
validation steps-5 


使 用 这 个 相对 简单 的 模型 获得 的 高 验证 精度 显示 了 深度 学 习 的 能 力 。 但 是 ， 必 
须 指出 ， 这 个 任务 相对 简单 。 随 着 标签 数量 的 增加 ， 获 得 良好 结果 所 需 的 训练 
数据 量 也 大 大 增加 。 而 且 ， 不 同 的 口音 、 背 景 噪声 和 其 他 因素 在 现实 世界 的 应 


用 中 也 起 着 重要 的 作用 。 


二 


9.3 使 用 语音 识别 技术 辨别 讲话 人 


一 一 一 一 一 一 一 一 一 一 一 3 


| 


除了 语音 识别 外 ， 还 可 以 用 声音 片段 做 更 多 的 事情 。 虽 然 语 音 识别 的 重点 是 将 语音 


(口语 ) 转换 为 数字 数据 ， 但 也 可 以 使 用 声音 片段 来 识别 说 话 人 是 谁 ， 这 也 被 称 为 语音 识 
别 。 由 于 解 训 尝 和 行为 醒 式 的 差异 ， 每 个 人 资 话 时 都 有 不 同 的 特点 。 演 讲 者 本 人 验证 和 讲 
话 者 本 人 识别 在 这 个 数字 时 代 得 到 了 更 多 的 关注 。 例 如 ， 家 性 数字 助理 可 以 日 动 检测 哪个 
人 在 说 话 。 


在 下 面 的 内 容 中 ， 将 使 用 与 之 前 的 内 容 中 相同 的 数据 ， 在 之 前 内 容 中 ， 实 现 了 一 个 语 


首 识别 流程 ， 下 面 将 对 说 数字 的 讲话 人 进行 识别 分 类 。 
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如 何 去 做 … 
1 ) 在 此 内 容 中 ,首先 导 和 所 需 函 数 库 : 


import glob 

import numpy as np 

import random 

import librosa 

from sklearn.model selection import train test split 
from sklearn.preprocessing import LabelBinarizer 


import keras 

from keras.layers import LSTM, Dense, Dropout, Flatten 
from keras.models import Sequential 

from keras.optimizers import Adam 

from keras.callbacks import EarlyStopping, ModelCheckpoint 


2) 设置 种 子 值 和 wav 文件 的 位 置 : 


SEED = 2017 
DATA DIR = 'Data/spoken, numbers, pcm/' 


3) 使 用 Scikit-learn 的 train test split 图 数 将 一 个 wav 文件 划分 成 一 个 训练 集 和 一 个 验 
证 集 : 


files = glob.glob(DATA DIR + "*.wav") 
X train, X val = train test split(files, test size-0.2, 
random state-SEED) 


print ('# Training examples: í(j'.format(len(X train))) 
print('4 Validation examples: {}'.format (len (X_val))) 


4) 为 了 提取 和 呈现 所 有 特定 的 标签 ， 使 用 以 下 代码 : 


labels = [] 
for i in range(len(X train)): 
label = X train[i]l.split('/')[-1].split('. ')[1] 


if label not in labels: 
labels.append(label) 
print (labels) 


5) 现在 可 以 定义 one hot encode PRZX, "JI Fb: 
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label binarizer = LabelBinarizer() 
label binarizer.fit(list(set(labels))) 


def one hot encode(x): return label binarizer.transform(x) 


6) 在 将 数据 输入 网 络 之 前 ， 需 要 进行 一 些 预 处 理 ， 使 用 以 下 设置 : 


n features - 20 
max length = 80 
n classes = len(labels) 


7) 现在 ， 可 以 定义 批 处 理 生 成 带 。 生 成 带 包 括 所 有 预 处 理 任务 ， 例 如 读 取 wav 文件 并 
将 其 转换 为 可 用 的 输入 : 


def batch generator(data, batch size=16): 


while 1: 

random.shuffle(data) 

X, y= | H 

for i in range (batch, size): 
wav = data[i] 
wave, sr = librosa.load(wav, mono-True) 
label = wav.split('/')[-1].split(' ')[1] 
y.append(one hot encode(label)) 
mfcc = librosa.feature.mfcc(wave, sr) 
mfcc = np.pad(mfcc, ((0,0), (0, max length- 
len(mfcc[0]))), mode-'constant', constant values-0) 


X.append(np.array(mfcc)) 
yield np.array(X), np.array(y) 


8) 在 定义 网 络 结构 之 前 ， 定 义 超 参数 : 


learning rate = 0.001 
batch size = 64 

n epochs = 50 

dropout = 0.5 


input, shape = (n features, max length) 
Steps per epoch = 50 


9 ) 此 处 使 用 的 网 络 结构 非 党 简单， 将 在 网 络 密集 层 的 顶部 堆 营 LSTM 层 ， 如 下 所 示 : 


179 


Python 深度 学 习 实 战 : 
75 个 有 关 神 经 网 络 建 模 、 强 化 学 习 与 迁移 学 习 的 解决 方案 


model = Sequential() 
model.add(LSTM(256, return sequences-True, 
input, shape-input shape, 
dropout-dropout)) 
model.add(Flatten()) 
model.add(Dense(128, activation-^'relu!)) 
model.add(Dropout (dropout)) 
model.add(Dense(n classes, activation-^'softmax!')) 


10) ZPR, KHEMR RKA, TIRAS, JP D BOWTU EE : 


opt = Adam(lr-learning rate) 
model.compile(loss-'categorical crossentropy', optimizer-opt, 
metrics-['accuracy!']) 


model.summary () 


11) 为 了 防止 过 拟 合 ， 将 使 用 早 俘 方 法 并 目 动 保存 具有 最 高 验证 精度 的 模型 ; 


callbacks = 
[ModelCheckpoint('checkpoints/voice recognition best model Ííepoch:0 
2d).hdf5', save best only-True), 

EarlyStopping(monitor-'val acc', patience-2)] 


12) 准备 开始 训练 ， 并 把 结果 存储 在 历史 文件 中 : 


history = model.fit generator( 
generator-batch generator(X train, batch size), 
Steps. per epoch-steps. per epoch, 
epochs-n, epochs, 
verbose-1, 
validation, data-batch, generator(X val, 32), 
validation steps-5, 
callbacks-callbacks 


在 图 9.1 中 ， 绘 制 了 训练 精度 和 验证 精度 随 训练 周期 的 变化 情况 。 
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一 一 训练 精度 
验证 精度 


8 10 12 


0 2 4 6 
XAR RUD 


图 9.1 训练 和 验证 精度 


9.4 使 用 深度 学 习 理 解 视 频 

在 第 7 革 计算 机 视觉 ” 中， 展示 了 如 何 检测 和 分 割 单个 网 像 中 的 目标 。 这 些 网 像 
中 的 物体 是 固定 的 。 但 是 ， 如 果 在 输入 中 添加 时 间 维 度 ， 则 目标 可 以 在 特定 场景 内 移 
动 。 了 解 在 多 个 帧 〈 视 频 ) 中 发 生 的 事情 是 一 件 非 常 困 难 的 事情 。 在 以 下 内 容 中 ， 将 要 
演示 如 何 来 处 理 视频 ， 重 点 将 是 整合 CNN 和 RNN。CNN 用 于 提取 单 帧 的 特征 ， 这 些 功 
能 组 合 起 来 并 用 作 RNN 的 输入 ， 这 也 称 为 网 络 堆 严 ， 即 在 一 个 模型 的 顶部 建立 ONES) 
第 二 个 模型 。 

对 于 此 内 容 ， 将 使 用 包含 13321 个 短视 频 的 数据 集 。 这 些 视频 分 布 在 共 101 个 不 同 的 
类 别 中 。 由 于 这 个 任务 的 复杂 性 ， 本 书 不 想 从 头 开 始 训练 模型 。 因 此 ， 将 使 用 Keras 中 提供 
的 已 有 预 训练 权重 的 InceptionV3 模型 。 


如 何 去 做 … 
1 ) 首先 导入 所 必要 的 函数 库 ， 如 下 所 示 


from keras.applications.inception v3 import InceptionV3 

from keras.preprocessing.image import ImageDataGenerator 

from keras.models import Sequential, Model 

from keras.layeSequential import Dense, GlobalAveragePooling2D 
from keras.optimizers import Adam 

from keras.callbacks import EarlyStopping, ModelCheckpoint 


2) 导入 水 数 库 之 后 ， 可 以 设置 超 参数 : 
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batch size = 32 
n epochs - 50 
Steps. per epoch = 100 


3) 由 于 数据 集 的 大 小 ， 使 用 批 生成 硕 很 重要 。 在 创建 生成 硕 之 前 ， 将 定义 Keras Hy 
ImageDataGenerator 用 于 预 处 理 目 的 : 


train datagen = ImageDataGenerator( 
rescale-1./255, 
shear range-0.2, 
horizontal flip-True, 
rotation range-10., 
width shift range-0.2, 
height shift range-0.2) 


val datagen = ImageDataGenerator(rescale-1./255) 


4 ) 为 训练 集 选 择 应 用 小 图 像 增 广 技术 。 为 使 模型 鲁 棒 ， 可 以 决定 应 用 更 加 主动 的 图 像 
增 广 技术 。 
5) 现在 可 以 创建 用 于 训练 和 验证 的 生成 带 ， 如 下 所 示 : 


classes = np.loadtxt('Data/videos/classes.txt') 

train generator - train datagen.flow from directory( 
'Data/videos/train/', 

target size-(299, 299), 

batch size-batch, size, 

classes-classes, 

class, mode-'categorical') 

validation generator = val, datagen.flow from directory( 
'Data/videos/test/', 

target size-(299, 299), 

batch size-batch size, 

classes-classes, 

class mode-'categorical') 


6) 首先 加 载 InceptionV3 模型 . 


inception model = InceptionV3 (include top-False) 


7) PR, ERAMANA RB dA, WI P rz: 
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X inception_model.output 

X GlobalAveragePooling2D() (x) 

x = Dense(1024, activation='relu') (x) 

predictions = Dense (len (classes), activation='softmax') (x) 


model = Model(inputs-inception model.input, outputs=predictions) 


8 ) 但 是 ， 只 需要 训练 最 后 两 层 ， 并 保持 其 他 权重 固定 : 


for layer in model.layers[:-2]: 
layer.trainable - False 


9 ) 现在 用 Adam EAE d VEREOR T 49 HET : 


model.compile(optimizer-Adam(), loss-'categorical crossentropy', 
metrics-['accuracy!']) 


10 ) 开始 训练 CNN 模型 : 


model.fit generator( 
train, generator, 
Steps per epoch-steps. per. epoch, 
validation, data-validation, generator, 
validation steps-10, 
epochs-n, epochs) 


11) 现在 开始 训练 模型 ， 然 而 希望 提取 特征 ,但 不 希望 从 最 终 层 (分 类 ) 而 是 从 最 大 


化 层 获 得 信息 。 方 法 如 下 : 


model.layers.pop() 

model.layers.pop() 

model.outputs - [model.layers[-1].output] 
model.output layers = [model.layers[-1]] 
model.layers[-1].outbound nodes = [] 


12) 接 下 来 ,遍历 视频 帧 以 提取 每 个 帧 的 这 些 特征 并 将 它们 保存 到 一 个 文件 中 : 


for video in data: 


path = 'Data/videos/' + str(video) 
frames = get frame (video) 
sequence - [] 


for image in frames: 
features - model.predict (image) 
sequence.append(features) 
tnip,saveLtxti(path, Sequence) 
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13 ) 现在 可 以 定义 想 要 应 用 于 这 些 特征 的 LSTM 模型 . 


model lstm = Sequential () 

model lstm.add(LSTM(1024, return sequences-True, 

input shape-input shape, dropout-dropout)) 

model lstm.add(Flatten()) 

model lstm.add(Dense(512, activation-'relu!)) 

model lstm.add(Dropout (dropout)) 

model lstm.add(Dense(self.nb classes, activation-^'softmax!)) 


14 ) 确保 用 于 第 二 层 模 型 验证 的 数据 拆 分 与 第 一 层 拆 分 相同 ( 和 否则， 将 有 数据 遗漏 ): 


batch size lstm = 32 
n epochs lstm - 40 


15) 最 后 ， 开 始 训练 第 二 层 模 型 : 


model lstm.fit(X train, 
y train, 
batch size-batch size lstm, 
validation data-(X val, y. val), 
verbose-1, 
epochs-n epochs, lstm) 


已 经 证 明 最 先进 的 模型 在 这 些 视 频 上 能 达到 909. 以 上 的 精度 。 然 而 ， 本 市 内 容 中 的 主 
要 目标 是 为 那些 对 分 类 视频 感 兴趣 的 人 提供 一 个 垫 脚 石 。 
也 可 以 使 用 浅 层 神经 网 络 来 代替 使 用 LSTM 作为 第 二 层 模 型 。 其 他 选项 包括 混 ， 
合 视 频 中 帧 的 结果 或 使 用 三 维 卷 积 网 络 。 | 


和 
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本 章 提 供 了 与 数字 运算 相关 的 内 容 ， 包 括 序 列 和 时 间 序 列 、 二 进 制 编码 和 浮 点 数 表示 。 
- 使 用 神经 网 络 预测 股票 价格 ; 

。 HWRE EOK ; 

- 使 用 浅 层 神经 网 络 进行 二 元 分 类 。 


10.4 简介 

在 前 面 的 内 容 中 ， 主 要 关注 各 类 机 器 学 习 算法 的 对 比 ， 以 及 深度 学 习 突出 的 应 用 领域 。 
但 是 ， 对 于 更 多 结构 化 的 数据 集 ， 深 度 学 习 也 可 以 具有 附加 价值 ， 特 别 是 当 数据 具有 时 间 
关系 时 。 在 本 章 中 ， 将 主要 侧重 于 应 用 深度 学 习 来 预测 时 间 序 列 和 趋势 分 析 。 


10.2 ”使 用 神经 网 络 预测 股票 价格 

当 机 器 学 习 变 得 流行 时 ， 立 即 就 引起 对 股票 价格 预测 的 很 多 关注 。 已 经 应 用 了 许多 不 
同 的 算法 来 预测 股票 价格 ， 从 更 传统 的 算法 ， 如 从 随机 森林 算法 到 近期 的 极端 梯度 上 升 算 
法 。 虽 然后 者 在 大 多 数 情况 下 可 能 仍然 优 于 深度 学 习 方 法 ， 但 它 在 使 用 神经 网 络 方法 中 仍 
然 很 有 价值 。 例 如 ， 可 以 用 于 网 络 集成 或 多 层 堆 登 。 在 下 面 的 内 容 中 ,将 用 Keras 框架 来 预 
测 股票 价格 。 


如 何 去 做 … 
1 ) 从 导入 所 需 函 数 库 开始 ， 如 下 所 示 ; 


import matplotlib.pyplot as plt 

import numpy as np 

import pandas as pd 

from sklearn.preprocessing import MinMaxScaler 


from keras.layers.core import Dense, 
Activation, Dropout 

from keras.layers.recurrent import LSTM 
from keras.models import Sequential 
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2 ) 加 载 数据 并 呈现 第 一 行 : 


data = pd.read csv('Data/stock-data-2000-2017.csv') 


# 为 方便 起 见 ， 重 排列 名 


data = data[['Open', 'High', 'Low', 'Volume', 

'Close']] 

data.head() 

图 10.1 显示 了 上 述 代码 的 输出 。 

开盘 价 最 高 价 最 低 价 成 交 量 收盘 价 

3352.149902 3376.919922 3233.189941 1437770000 3355.560059 
3326.889893 3383.399902 3229.010010 1874430000 3240.540039 
3152.330078 3258.239990 3103.530029 2340450000 3168.489990 
3241.260010 3249.110107 3071.250000 2128660000 3074.679932 
3054.550049 3316.969971 3054.550049 2070750000 3316.770020 


图 10.1 股票 数据 集 的 前 五 项 


3) 在 继续 之 前 ， 需 要 设置 超 参 数 : 


sequence length = 21 4 20 次 预先 输入 
n features = len(data.columns) 


val ratio = 0.1 
n epochs = 300 
batch size = 512 


4) 数据 需要 预先 处 理 ， 然 后 才能 输入 到 递归 神经 网 络 。 每 个 输入 应 包含 前 20 个 
(sequence length - 1) 输入 的 数据 。 这 意味 者 ， 包 含 标 签 的 一 行 数据 的 形状 由 特征 数 日 (n 
features ) 与 序列 长 度 (sequence length ) 来 决定 : 


data = data.as matrix() 

data processed = [] 

for index in range(len(data) - sequence length): 
data processed.append(data[index : 
index + sequence length]) 

data processed = np.array (data, processed) 


5 ) 对 时 间 序 列 数 据 进行 建 醒 时 ， 应 该 非常 小 心地 分 割 数据 进行 训练 和 验证 。 应 该 类 
似 于 训练 数据 和 测试 数据 拆 分 。 在 这 种 情况 下 ， 应 该 将 数据 集 按时 间 分 成 训练 和 验证 两 个 


部 分 : 
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val split = round((1-val ratio) * 

data processed.shape[0]) 

train = data processed[: int(val split), :] 
val = data processed[int(val split) :, :] 


print('Training data: í(j'.format(train.shape)) 
print('Validation data: í()'.format(val.shape)) 


6) 如 图 10.1 所 示 ， 用 作 输 入 的 值 非常 大 。 此 外 ， 其 中 一 个 变量 Volume 与 其 他 变量 相 
比 具 有 更 大 的 值 ， 因 此 使 用 Scikit-learn 的 MinMaxScaler 对 数据 进行 标准 化 是 非常 重要 的 , 
如 下 所 示 : 


train samples, train nx, train ny = train.shape 
val samples, val nx, val ny = val.shape 


train = train.reshape((train samples, train nx * train ny)) 
val = val.reshape((val samples, val nx * val ny)) 


preprocessor - MinMaxScaler().fit(train) 
train = preprocessor.transform(train) 
val = preprocessor.transform(val) 


train = train.reshape((train samples, 
train nx, train ny)) 

val = val.reshape((val. samples, 

val nx, val ny)) 


7) 接 下 来 ， 需 要 确保 标签 的 正确 提取 。 从 21 x5 矩阵 中 ,需要 最 后 一 个 值 作为 标签 。 
作为 输入 数据 ， 将 只 使 用 前 20 行 (使 用 第 21 118058 ARE TOUS TE AE): 


X train = train[:, : -1] 

| 1L] 

X val = val[:, : -1] 

v val = valli, -1][ : ,-1] 

X train = np.reshape(X train, (X train.shape[0], 


X train.shape[1], n features)) 
X val = np.reshape(X val, (X val.shape[0], 
X val.shape[1], n features)) 


8) 现在 可 以 定义 模型 结构 。 将 两 个 LSTM 神经 元 和 一 个 输出 层 堆 加 在 一 起 ， 其 间 有 一 
个 Dropout， 将 使 用 Adam 作为 优化 需 ， 并 使 用 MSE 作为 损失 困 数 : 
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model = Sequential() 
model.add(LSTM(input, shape-(X train.shape[1:]), units = 128, 
return, sequences-True)) 

model.add (Dropout (0.5)) 

model.add(LSTM(128, return_sequences=False)) 

model .add (Dropout (0.25)) 

model.add (Dense (units=1)) 

model.add(Activation("linear")) 


model.compile(loss-"mse", optimizer-"adam") 


9) 开始 训练 模型 ， 并 将 训练 结果 存储 在 历史 记录 中 : 


history = model.fit( 
X train, 
y train, 
batch, size-batch, size, 
epochs-n, epochs, 
verbose-2) 


正如 读者 所 看 到 的 ， 在 训练 时 没有 使 用 验证 分 割 。 如 有 果 想 在 训练 中 使 用 验证 集 ， 应 该 
按照 时 间 划 分 训练 集 并 使 用 固定 的 验证 集 。 

10) 对 比 之 下 ， 将 在 训练 之 后 验证 结 琳 。 为 外 将 你 存 标 签 和 预测 之 间 的 差异 ， 如 下 
所 未 : 


preds_val = model.predict(X val) 

diff = [] 

for i in range(len(y. val)): 
pred = preds. val[il[0] 
diff.append(y val[i] - pred) 


11) 由 于 已 经 标准 化 所 有 的 输入 变量 和 标签 ， 预 测 结 末 也 将 加 以 标准 化 。 这 就 是 为 什 
么 需要 使 用 逆 变 换 来 获得 实际 值 : 


real min = preprocessor.data min [104] 
real max = preprocessor.data max [104] 
print (preprocessor.data, min [104]) 
print (preprocessor.data max [104]) 


preds, real = preds val * 

(real max - real min) + real min 
y val real = y val * 

(real max - real min) + real min 


12) 最 后 ， 可 以 将 实际 的 股票 价格 和 预测 价格 按 以 下 步骤 绘制 出 来 : 
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plt.plot(preds real, label-2'Predictions"') 
plt.plot(y val real, label-'Actual values!) 
plt.xlabel('test') 

plt.legend(loc-20) 

plt.show() 


在 图 10.2 中 ,绘制 了 实际 股价 和 模型 输出 的 预测 值 。 正 如 读者 所 看 到 的 那样 ， 预 测 确 
实体 循 了 实际 的 价格 ,但 是 在 大 多 数 步 又 中 高 佑 了 价格 。 


65004 一 一 预测 值 
实际 值 

6000 

5500 

5000 

4500 


0 100 200 300 400 
时 间 


图 10.2 ”验证 集 的 实际 股票 价格 与 预测 值 对 比 


10.8 ”预测 共享 单车 需求 

在 以 前 的 数据 集中 ,其 特征 与 标签 强 相关 。 然 而 ， 在 某 些 时 间 序 列 中 ,特征 有 可 能 与 
标签 相关 性 较 小 或 与 标签 完全 不 相关 。 机 器 学 习 背 后 的 主要 思想 是 ,算法 本 身 试图 找 出 哪 
些 特征 是 有 价值 的 ， 哪 些 不 是 。 特 别 是 在 深度 学 习 中 ， 要 保持 有 限 的 工程 特征 。 在 下 面 的 
内 容 中 ， 将 预测 对 单车 共享 租赁 的 需求 。 数 据 包括 一 些 有 趣 的 特征 ， 如 天 气 类 型 、 假 期 、 


iia SE RIRs 


如 何 去 做 … 
1 ) 首先 导入 所 需 函 数 库 ， 


from sklearn import preprocessing 
import pandas as pd 

import numpy as np 

from math import pi, sin, cos 
from datetime import datetime 
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from keras.models import Sequential 

from keras.layers import Dense, Activation, Dropout 
from keras.optimizers import Adam 

from keras.callbacks import EarlyStopping 


2 ) 训练 数据 和 测试 数据 分 别 存储 在 两 个 独立 的 .csv 文件 中 : 


train = pd.read csv('Data/bike-sharing/train.csv') 
test = pd.read csv('Data/bike-sharing/test.csv') 
data = pd.concat([train, test]) 

test split = train.shape[0] 


3) 输出 前 五 行 数 据 进行 查看 : 
data.head() 


在 图 10.3 中 ， 可 以 看 到 datetime 特征 不 能 被 神经 网 络 正 确 解 析 。 


体感 温度 偶然 性 租车 数 日 期 及 时 间 是 否 假日 ”湿度 登记 预约 人 数 FP ”温度 ”天气 风速 ”是否 工作 日 
0 14.395 3.0 16.0 2011-01-01 00:00:00 0 81 13.0 1 9.84 1 0.0 0 
0 13.685 | 8.0 40.0 2011-01-01 01:00:00 0 80 32.0 | 9.02 | 0.0 0 
2 13.635 | 5.0 32.0 2011-01-01 02:00:00 0 80 27.0 | 9.02 l 0.0 0 
3 14.395 3.0 13.0 2011-01-01 03:00:00 0 75 10.0 | 9.84 l 0.0 0 
4 14.395 0.0 1.0 2011-01-01 04:00:00 0 75 1.0 | 9.84 l 0.0 0 


图 10.3 ”训练 数据 前 五 项 
4) 按 如 下 步骤 预 处 理 该 变量 : 


data['hour'] = data.apply (lambda x: 
datetime.strptime (x['datetime'|], 
'$Y-$m-$d $H:$M:$S').hour, axis-1) 
data['weekday'] = data.apply(lambda x: 
datetime.strptime(x['datetime'], 
'5SY-$m-$d $H:$M:$S').weekday(), axis-1) 


data['month'] = data.apply(lambda x: 
datetime.strptime(x['datetime'!], 
'$SY-$m-$d $H:$M:$S').month, axis-1) 
data['year'] = data.apply(lambda x: 
datetime.strptime(x['datetime'], 
'$Y-$m-$d $H:$M:$S').year, axis-1) 


5) 在 一 个 周期 结束 之 后 ， 新 的 周期 开始 之 前 ， 尽 管 硕 望 保 持 一 定数 量 的 特征 工程 ， 但 


可 能 更 和 硕 望 确保 模型 能 够 理解 这 一 点 。 更 具体 地 说 ， 这 些 时 间 变 量 是 循环 的 。 可 以 用 下 面 
HR S IC EC fr E : 
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data['hour sin'] = data.apply (lambda x: 

sinix['hour'] 7 24.0 * 2 * pi); axis=1) 
data['hour_cos'] = data.apply (lambda x: 

cos(x['hour'] / 24.0 * 2 * pi), axis-1) 

data['weekday sin'] = data.apply(lambda x: 
sin(x['weekday'] / 7.0 * 2 * pi), axis-1) 
data['weekday cos'] = data.apply(lambda x: 
cos(x['weekday'] / 7.0 * 2 * pi), axis-1) 

data['month sin'] = data.apply(lambda x: 
sin(((x['month'] - 5) $ 12) / 12.0 * 2 * pi), axis-1) 
data['month cos'] = data.apply(lambda x: 
cos(((x['month'] = 5) $ 12) / 12.0 * 2 * pi), axis-1) 


data['season sin'] -» data.apply(lambda x: 
sin(((x['season'] - 3) $ 4) / 4.0 * 2 * pi), axis-1) 
data['season cos'] = data.apply(lambda x: 
cos(((x['season'] - 3) $ 4) / 4.0 * 2 * pi), axis-1) 


6) 预 处 理 后 ， 可 以 再 次 分 割 训练 和 测试 数据 : 


X train = data[:test split].drop(['datetime', 

'casual', 'registered', 'count'], inplace-False, axis-1) 
X test = data[test split:].drop(['datetime', 

'casual', 'registered', 'count'], inplace-False, axis-1) 
y train = data['count'][:test split] 

y. test = data['count'] [test split:] 


7) 在 输入 数据 之 前 ， 应 该 对 输入 变量 进行 标准 化 : 


Scaler = preprocessing.StandardScaler() 
X train = scaler.fit transform(X train) 
X test = scaler.transform(X test) 
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对 这 个 问题 的 训练 数据 和 测试 数据 的 划分 可 以 被 认为 是 非 正统 的 。 训 练 集中 
的 记录 是 每 个 月 的 前 19 XQ 测试 集中 的 记录 是 从 第 20 天 到 月 底 。 如 果 想 
正确 地 验证 结果 ， 也 应 该 以 相同 的 方式 分 割 验证 集 。 例 如 ,使 用 14~19 X 
为 验证 集 。 


和 


8) 现在 可 以 定义 模型 结构 和 优化 从 并 编 详 模型 : 
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model = Sequential() 

model.add(Dense(200, input dim-X train.shape[1])) 
model.add(Activation('relu!')) 

model.add (Dropout (0.1)) 

model.add(Dense(200)) 
model.add(Activation('relu!')) 

model.add (Dropout (0.1)) 

model.add(Dense(1)) 


opt = Adam() 
model.compile(loss-'mean squared logarithmic error', 
optimizer-opt) 


9) 使 用 以 下 超 参 数 : 


n epochs = 1000 
batch size = 128 


10) 使 用 早 停 方法 开始 训练 : 


callbacks = 
patience-5)] 
history = model.fit(X train, y train, shuffle-True, 
epochs-n epochs, batch size-batch size, 

validation, split-0.1, verbose-1, callbacks-callbacks) 


[EarlyStopping (monitor-'val loss', 
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在 本 节 内 容 中 ,使 用 了 一 个 标准 的 前 馈 神 经 网 络 结 构 。 这 些 数据 的 时 间 特 性 已 
被 特征 捕获 ， 而 不 是 由 模型 捕获 。 
10.4 ”使 用 浅 层 神经 网 络 进行 二 元 分 类 

在 本 书 中 ， 着 重 于 为 现实 世界 的 问题 提供 随时 可 用 的 示例 。 对 于 一 些 相对 简单 的 任务 ， 
简单 的 神经 网 络 可 以 为 问题 提供 足够 好 的 解决 方案 。 在 下 面 的 内 容 中 ， 将 演示 如 何在 Keras 
中 实现 浅 层 神 经 网 络 进行 二 元 分 类 。 


如 何 去 做 … 
1 ) 从 导入 所 需 函 数 库 开始 ， 如 下 所 示 : 


import numpy as np 
import pandas as pd 
from sklearn.preprocessing import LabelEncoder 


from keras.models import Sequential 
from keras.layers import Dense 
from keras.callbacks import EarlyStopping 
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2) 接 下 来 ， 加 载 数 据 集 : 


dataframe = pandas.read csv("Data/sonar.all-data", 
header-None) 
data = dataframe.values 


3) 从 特征 数据 上 分 离 标签 : 


X= data[:,0:60].astype(float) 
data[:,60] 


K 
| 


-« 


4) 目前 ， 标 签 是 字符 串 。 根 据 网 络 要求 ， 需 要 将 它们 二 进 制 化 : 


encoder = LabelEncoder() 
encoder.fit(y) 
y — encoder.transform(y) 


5) 定义 一 个 具有 单一 隐 层 的 简单 网 络 : 


model = Sequential() 

model.add(Dense(32, input dim-60, activation-^'relu')) 
model.add(Dense(1, activation-'sigmoid')) 
model.compile(loss-'binary crossentropy', 
optimizer-'adam', metrics-['accuracy!]) 


6 ) 通过 定义 一 个 回调 函数 使 用 早 集 方法 来 防止 过 拟 合 : 


callbacks = [EarlyStopping (monitor='val_acc', patience-20)] 


7) 接 下 来 ， 定义 超 参数 并 开始 训练 : 


n_epochs = 1000 

batch size = 2 

model.fit(X, y, epochs-n epochs, batch size-batch size, 
validation split-0.1, callbacks-callbacks) 


nn 


在 本 节 内 容 中 已 经 证 明 ， 实 现 深层 网 络 并 不 总 是 可 以 获得 良好 的 结果 。 在 某 些 ， 
情况 下 ， 一 个 较 小 、 较 复杂 的 网 络 可 以 工作 得 很 好 ， 甚 至 很 好 。 当 数据 结构 合 | 
理 、 任 务 简 单 时 ， 保 持 简单 更 具 价 值 。 | 


È ——— —Q——————————————————————— ————————————————————— ————— A—— ————— | 
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本 曹 重 点 介绍 在 复杂 环境 中 应 用 最 先进 的 次 度 学 习 应 用 程序 ， 包 括 在 复杂 环境 ( 模拟 ) 
中 的 游戏 智能 体 以 及 自动 芍 驶 相关 的 内 容 。 

。 通 过 端 到 靖 学 习 来 驾驶 汽车 ; 

。 通 过 深度 强化 学 习 来 玩 游戏 ; 

。 用 遗传 算法 (GA ) 优化 超 参 数 。 


11.1 简介 
正如 本 书 所 讨论 的 ， 深 度 学 习 对 机 器 人 和 游戏 智能 体 也 有 重大 影响 。 其 他 机 器 学 习 算 
法 已 经 显示 出 了 如 何在 不 太 复杂 的 环境 中 击败 人 类 玩家 。 然 而 ， 深 度 学 习 模 式 能 够 在 更 复 
redierint 驾驶 汽车 一 直 被 认为 是 一 项 复杂 的 任务 ， 只 能 由 人 类 来 
完成 能 在 遥远 的 将 来 被 机 器 人 完成 。 人 工 智能 和 传感器 技术 的 最 新 进展 清楚 地 表明 ， 
N 


11.2 ”通过 端 到 端 学 习 来 驾驶 汽 
深度 学 习 令 人 着 迷 的 地 方 是 ， 不 需要 关注 特征 工程 。 理 想 的 情况 下 ， 网 络 自己 学 习 什 
么 是 重要 的 ， derer 一 个 很 好 的 例子 就 是 行为 克隆 : 一 个 人 演示 一 个 特定 的 任务 一 一 
这 是 训练 数据 ， 智能 体 ( 深度 学 习 模型 ) 试图 复制 那个 行为 ， 而 没有 指定 步骤。 对 于 
只 有 一 名 知 ea 5 驶 和 车辆， 智能 体 拟人 应 该 学 习 在 路 上 行驶 。 
这 里 将 演示 如 何 实施 一 种 教导 智能 体 拟人 在 赛 道上 驾驶 汽车 的 深度 学 习 模 式 。 


AT] 
对 于 这 个 方案 ， 将 使 用 Udacity 的 自驾 车 模拟 器 。 这 个 模拟 絮 是 基于 Unity 的 ， 安 装 这 
个 模拟 大 的 指令 可 以 在 下 面 的 GitHub 页 面 找到 : https : //github.com/udacity/self-driving-car- 


sima 


如 何 去 做 … 
1 ) 首先 ， 导 入 所 需 函 数 库 ， 如 下 所 示 : 


194 


第 11 x 
游戏 智能 体 和 机 古人 


import pandas as pd 


import numpy as np 
import CY 
import math 


from keras.models import Sequential 

from keras.layers.core import Dense, Dropout, Activation, Lambda 
from keras.layers import Input, ELU 

from keras.optimizers import SGD, Adam, RMSprop 

from keras.utils import np utils 

from keras.layers import Conv2D, MaxPooling2D, Flatten 

from keras import initializers 


from keras.callbacks import ModelCheckpoint 


2) 接 下 来 ， 加 载 训练 效 据 如 下 : 


data path = 'Data/SDC/training.csv' 


data = pd.read csv(data path, header-None, skiprows-[0], 
names-['center', 'left', 'right', 'steering', 'throttle', 'brake', 
'speed']) 


3) 继续 之 前 ， 需 要 定义 一 些 图 像 参 数 : 


img cols = 64 
img rows = 64 
img channels = 3 


4) 对 于 数据 增 广 ， 定 义 以 下 函数 : 


def augment_image (image): 
image = cv2.cvtColor(image,cv2.COLOR RGB2HSV) 
random bright = .25 + np.random.uniform() 
image[:,:,2] = image[:,:,2] * random bright 
image = cv2.cvtColor (image,cv2.COLOR HSV2RGB) 


return (image) 


5) 接 下 来 ， 定 义 一 个 预 处 理 输 入 图 像 的 函数 : 


def preprocess, image (data): 
# 随机 选择 左 、 中 、 厂 图 
# 照相 机 图 像 


rand = np.random.randint (3) 


if (rand == 0): 
path file = data['left'][0].strip() 
shift ang = .25 
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if (rand == 1): 
path file = data['center'][0].strip() 
shift ang = O. 

if (rand == 2): 
path file = data['right'][0].strip() 
shift, ang n s 

y = data['steering'][0] + shift ang 


# 读 取 图 像 


image = cv2.imread(path file) 
image = cv2.cvtColor(image, cv2.COLOR  BGR2RGB) 


# OE 
shape = image.shape 
image = image[math.floor(shape[0]/4): 


shape[0]-20, 0:shape[1]] 
# 调整 图 像 大 小 


image = cv2.resize(image, (img cols, img rows), 
interpolation-cv2.INTER AREA) 


# 增强 图 像 
image = augment image (image) 
image = np.array(image) 


if np.random.choice([True, False]): 
image = cv2.flip(image,1) 
y = -=y 

return (image, y) 


6) 由 于 总 训练 集 相 当 大 ， 所 以 使 用 批量 生成 带 来 实时 加 载 网 像 : 


def batch gen(data, batch, size): 
# 创建 空 值 numpy 数组 


batch, images = np.zeros((batch, size, img. rows, 
img cols, img. channels)) 
batch steering = np.zeros (batch, size) 


small steering threshold = 0.8 


# 目 定 义 批 样本 生成 融 


while 1: 
for n in range (batch, size): 
i = np.random.randint (len (data)) 
data sub = data.iloc[[i]].reset index() 


# 按 概率 只 保留 具有 小 转 癌 角度 的 训练 数据 
keep = False 
while keep -- False: 
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X, y = preprocess, image (data, sub) 
pr unif = np.random 
if abs(y) « .01: 
next; 
if abs(y) « .10: 
small steering rand = np.random.uniform() 
if small, steering rand » 
small steering threshold: 


keep - True 
else: 
keep = True 
batch images[n] = x 
batch steering[n] = y 


yield batch images, batch steering 


7) 定义 模型 结构 : 


input shape = (img rows, img cols, img channels) 
model = Sequential() 

model.add(Lambda(lambda x: x/255.-0.5, 

input shape-input, shape)) 

model.add(Conv2D(3, (1, 1), padding-'valid', 
kernel initializer-'he normal!)) 
model.add(ELU()) 

model.add(Conv2D(32, (3, 3), padding^-^'valid', 
kernel initializer-'he normal')) 
model.add(ELU()) 

model.add(Conv2D(32, (3, 3), padding^-^'valid', 
kernel initializer-'he normal')) 
model.add(ELU()) 
model.add(MaxPooling2D (pool, size-(2, 2))) 
model.add(Dropout (0.5)) 

model.add(Conv2D(64, (3, 3), padding^-^'valid', 
kernel initializer-^'he normal'!')) 
model.add(ELU()) 

model.add(Conv2D(64, (3, 3), padding^-^'valid', 
kernel initializer-'he normal'!')) 

model.add (ELU()) 
model.add(MaxPooling2D (pool, size-(2, 2))) 
model.add (Dropout (0.5)) 

model.add(Conv2D(128, (3, 3), padding='valid', 
kernel initializer-'he normal!)) 
model.add(ELU()) 

model.add(Conv2D(128, (3, 3), padding^-'valid', 
kernel initializer-'he normal!)) 
model.add(ELU()) 
model.add(MaxPooling2D (pool, size-(2, 2))) 
model.add (Dropout (0.5)) 

model.add(Flatten()) 

model.add(Dense(512, kernel initializer-^'he normal', 
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activation-'relu')) 

model.add(ELU()) 

model.add (Dropout (0.5)) 

model.add(Dense(64, kernel_initializer='he_normal')) 
model.add(ELU()) 

model.add (Dropout (0.5)) 

model.add(Dense(16, kernel_initializer='he_normal')) 
model.add(ELU()) 

model.add (Dropout (0.5)) 

model.add(Dense(1, kernel initializer='he normal')) 


opt = Adam(lr-1e-4, beta_1=0.9, beta 2=0.999, 
epsilon-1e-08, decay=0.0) 
model.compile(optimizer-opt, loss='mse') 
model .summary () 


8) 为 了 存储 训练 模型 ， 使 用 一 个 回调 函数 : 


callbacks = [ModelCheckpoint('checkpoints/sdc.h5', 
save best only-False)] 


9) 接 下 来 ， 创 建 用 于 训练 和 验证 的 生成 融 : 


train generator = batchgen(data, batch, size) 
val generator = batchgen(data, batch, size) 


10) 在 开始 训练 之 前 ， 需 要 设置 一 些 超 参数 : 


n epochs = 8 
batch size = 64 

Steps per epoch = 500 
validation steps = 50 


11) 最 后 ， 开 始 训练 : 


history = model.fit generator(train generator, 

Steps per epoch-2steps per epoch, epochs-n epochs, 
validation data-val, generator, 

validation, steps-validation steps, callbacks-callbacks) 


在 本 市 内 容 中 ， 训 练 了 一 个 乔 能 体 ， 在 没有 指定 任何 规则 的 情况 下 在 赛 道上 芍 驶 汽车 。 
镶 能 体 复制 训练 数据 的 行为 并 学 习 轨 驶 ， 所 以 这 也 叫做 端 到 端的 学 习 。 
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在 下 面 的 内 容 中 ， 将 演示 如 何 利 用 深度 学 习 模 式 来 玩 游 戏 。 在 这 个 例子 中 ， 展 示 了 如 
何 应 用 一 个 Deep-Q 网 络 与 Keras 框架 来 取得 进展 。 


如 何 去 做 … 
1 ) 从 导入 必要 的 函数 库 开 始 ， 如 下 所 示 : 


import gym 

import random 

import numpy as np 

import matplotlib.pyplot as plt 
from collections import deque 


from keras.models import Sequential 

from keras.optimizers import Adam 

from keras.layers import Dense, Flatten 

from keras.layers.convolutional import Conv2D 
from keras import backend as K 


2) 首先 ， 绘 制 一 个 游戏 示例 输入 图 像 C 见 图 11.1 ): 
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图 11.1 OpenAI 的 Breakout 输入 图 像 示 例 


env = gym.make('BreakoutDeterministic-v4') 
observation = env.reset() 


for i in range(3): 
# 2 帧 图 像 后 发 球 
If i> 1: 
print (observation.shape) 
plt.imshow(observation) 
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plt.show() 
# 获得 下 一 次 观测 
observation, _，_，_ = env.step(1) 


3) 现在 ， 可 以 定义 一 个 预 人 处 理 输入 数据 的 也 数 : 


def preprocess frame(frame): 
* 移 去 图 像 项 部 及 一 些 背 景 
frame = frame[35:195, 10:150] 
# 转化 为 灰 度 图 像 并 缩小 1/2 


frame = frame[::2, ::2, 0] 
# RESEN O 

frame[frame == 144] = O 
frame[frame == 109] = 0 

# 设 球 和 拍 数 目 为 1 

frame[frame != 0] = 1 


return frame.astype(np.float).ravel() 


4) 输出 前 面 的 预 处 理 图 像 ， 了 解 算法 做 了 什么 《 见 图 11.2 ): 


K| 11.2 Breakout 的 预 处 理 帧 


obs, preprocessed = preprocess, frame (observation) 
plt.imshow(obs preprocessed, cmap-'gray!) 
plt.show() 


5) 对 于 Q^E2JBURRSCHI, T5 RE SLT TI BRAMES BUR BET : 
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class DQLAgent: 


def _ init (self, cols, rows, n actions, 
batch size-32): 
self.state size = (cols, rows, 4) 
self.n actions = n actions 


self.epsilon = 1. 

self.epsilon start, self.epsilon end = 1.0, 0.1 
self.exploration steps - 1000000. 
self.epsilon decay step = (self.epsilon start -一 
self.epsilon end) / self.exploration steps 
self.batch size = batch size 

self.discount factor = 0.99 

self.memory = deque (maxlen-400000) 

self.model = self.build model () 

self.target model = self.build model () 
self.optimizer = self.optimizer() 
self.avg q max, self.avg loss = 0, 0 


def optimizer (self): 
a = K.placeholder(shape-(None,), dtype-'int32") 
y = K.placeholder(shape-(None,), dtype-2'float32') 


py x = Selr.model.oubLput 


a one hot = K.one hot(a, self.n actions) 
q value = K.sum(py x * a one hot, axis-1) 
error = K.abs(y - q value) 


quadratic, part = K.clip(error, 0.0, 1.0) 
linear part = error - quadratic part 
loss = K.mean(0.5 * 
K.square(quadratic part) + linear. part) 


opt = Adam(1r-0.00025, epsilon-20.01) 

updates = opt.get updates 
(self.model.trainable weights, [], loss) 
train = K.function([self.model.input, a, yl, 
[loss], updates-updates) 


return train 
def build model(self): 
model - Sequential() 


model.add(Conv2D(32, (8, 8), strides-(4, 4), 
activation-'relu', input, shape-self.state size)) 
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model.add(Conv2D(64, (4, 4), strides-(2, 2), 
activation-'relu')) 

model.add(Conv2D(64, (3, 3), strides-(1, 1), 
activation-'relu')) 

model.add(Flatten()) 

model.add(Dense(512, activation-^'relu')) 
model.add(Dense(self.n actions)) 
model.summary () 

return model 


def update model (self): 
self.target model.set weights 
(self.model.get, weights ()) 


def action(self, history): 
history = np.float32(history / 255.0) 
if np.random.rand() <= self.epsilon: 
return random.randrange(self.n actions) 
else: 
q value = self.model.predict (history) 
return np.argmax(q value[0]) 


def replay(self, history, action, reward, 
next history, dead): 

self.memory.append((history, action, 
reward, next history, dead)) 


def train(self): 
if len(self.memory) < self.batch, size: 


return 
if self.epsilon > self.epsilon_end: 
self.epsilon -= self.epsilon_decay_step 
mini batch = random.sample (self.memory, 
self.batch_size) 
history = np.zeros((self.batch, size, 


self.state size[0], self.state size[1], 
self.state size[2]1])) 

next history = np.zeros((self.batch, size, 
self.state size[0], self.state size[1], 
self.state size[2])) 
target - np.zeros((self.batch, size,)) 
action, reward, dead = []l, [l, I] 


for i in range(self.batch, size): 


history[i] = np.float32 
(mini batch[i][0] / 255.) 
next history[i] = np.float32 
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(mini. batch[i][3] / 255.) 
action.append (mini, batch[i][1]) 
reward.append (mini, batch[i]I[2]1]) 
dead.append (mini, batch[i][4]) 


target value = self.target, model. 
predict (next history) 


for i in range(self.batch size): 


if dead[i]: 

target[i] = reward[i] 
else: 

target[i] = reward[i] + 


self.discount. factor * \ 
np.amax(target  value[i]) 


loss = self.optimizer([history, action, 
target]) 
self.avg loss += loss[0] 


6) BE Pok, DEED ABUN em LUE BOT UE ENS : 


env = gym.make('BreakoutDeterministic-v4!') 


# 整体 参数 设 定 
n warmup steps = 50000 
update model rate - 10000 


cols, rows = 85, 70 

n states - 4 

# 超 参 数 

batch size = 32 

# 初始 化 

agent = DOQLAgent(cols, rows, n actions-3) 
Scores, episodes = [], [] 


n steps = 0 


7) 现在 准备 开始 训练 模型 : 


while True: 
done = False 
dead = False 
Step, score, start_life = 0, 0, 5 
observation = env.reset() 
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State = preprocess_frame (observation, 
cols, rows) 

history = np.stack((state, state, 
state, state), axis-2) 

history = np.reshape([history], 

(1, cols, rows, n states)) 


while not done: 

# env.render() 
n steps += 1 
step += 1 
# 获取 动作 
action = agent.action (history) 
observation, reward, done, info = 
env.step (action+1) 
# 提取 下 一 个 状态 
State next = preprocess frame 
(observation, cols, rows) 


State next - np.reshape([state next], 
(1, cols, rows, 1)) 
history next - np.append(state next, 


history[$:, i, i, :23], a4xi8-23) 


agent.avg q max += np.amax(agent.model 
.predict (history) [0] ) 
reward = np.clip(reward, -1., 1.) 


agent.replay(history, action, reward, 

history next, dead) 

agent.train() 

if n steps $ update model rate -- O0: 
agent.update model() 

Score += reward 


if dead: 
dead = False 
else: 
history - history. next 


if done: 

print('episode {:2d}; score: 

(UL > q {:2f}; loss {:2f}; steps 1j" 
.formatí(í(n steps, score, 
agent.avg q max / float(step), 
agent.avg loss / float(step), step)) 


agent.avg q max, agent.avg loss = 0, 0 
# 存储 模型 权重 
if n steps $ 1000 -- 
agent.model.save weights 
("weights/breakout dql.h5") 
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8) 当 要 评估 算法 时 ， 可 以 停止 训练 。 
9) 看 看 最 终 模 型 的 表现 ( 见 图 11.3 ): 


图 11.3 ”对 深度 O 学 习 智 能 体 进 行 训练 


env = gym.make('BreakoutDeterministic-v4') 
agent - DQLAgent(cols, rows, n action-3) 


for i in range(5): 
observation = env.reset() 


State = pre processing (observation, 

cols, rows) 

history = np.stack((state, state, 

state, state), axis-2) 

history = np.reshape([history], (1, cols, 
rows, n states)) 


while not done: 
env.render() 
action = agent.get action(history) 
observe, reward, done, info - 
env.step(í(action-t1) 


11.4 用 GA 优化 超 参 数 

在 以 前 的 所 有 内 容 中 ， 只 考虑 了 静态 网 络 结构 。 更 具体 地 说 ， 在 训练 网 络 或 智能 体 
时 ， 网 络 没有 改变 。 通 常 看 到 的 是 ， 网 络 结构 和 超 参 数 会 对 结果 产生 很 大 的 影响 。 但 是 人 
们 通常 不 知道 网 络 是 否 能 够 正常 运行 ， 所 以 需要 对 其 进行 彻底 的 测试 。 有 不 同 的 方法 来 优 
化 这 些 超 参数 。 在 第 12 章 ” 超 参数 选择 、 调 优 和 神经 网 络 学 习 ”中 ,演示 了 如 何 应 用 网 
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RRR (HEJ ) 来 寻找 最 优 的 超 参 数 。 但 是 ， 有 时 超 参 数 空间 是 巨大 的 ， 使 用 蛮 力 将 花 
费 太 多 时 间 。 

演化 算法 ( EA ) 已 被 证 明 其 功能 强大 。 od INR 吉米 之 一 是 生命 进化 。 进 化 
中 使 用 的 优化 算法 已 EBRAR, AU de 遗传 算法 。 这 个 算法 受到 生命 进化 的 启发， 
它 使 用 进化 、 适应 、 交 义 和 变 异 等 算 子 。 这 些 算法 背 a 但 是 本 
书 硕 望 简单 介绍 一 下 遗传 算法 来 优化 以 下 内 容 中 的 超 参 数 。 


如 何 去 做 … 
1 ) 首先 导入 所 需 函 数 库 ， 如 下 所 示 : 


from functools import reduce 
from operator import add 
import random 


from keras.datasets import mnist 

from keras.models import Sequential 

from keras.layers import Dense, Dropout 

from keras.utils.np utils import to categorical 
from keras.callbacks import EarlyStopping, 
ModelCheckpoint 


2) 导入 函数 库 后 ,设置 一 些 超 参数 : 


n classes = 10 
batch size = 128 
n epochs - 1000 


3) 接 下 来 ， 加载 和 预 处 理 训练 数 据 : 


(X train, y train), (X val, y val) = mnist.load data () 
X train = X train.reshape(60000, 28, 28, 1) 

X val = X val.reshape(10000, 28, 28, 1) 

X train = X train.astype('float32') 

X val = X val.astype('float32!') 

X val /= 255 

X val /= 255 


y train = to categorical(y train, n classes) 
y val = to categorical(í(y val, n classes) 


4) 再 下 来 ， 定义 一 个 创建 和 编 i 六 模型 的 函数 。 网 络 中 的 一 些 配 置 没 有 设 定 ， 但 可 以 先 
设 定 为 参数 。 其 中 包括 丢失 率 、 和 学 习 率 以 及 最 终 全 连接 网 络 层 中 隐 层 神经 元 的 数量 : 
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def create model(parameters, n classes, input, shape): 


print (parameters) 

dropout = parameters['dropout'] 

learning rate - parameters['learning rate'] 
hidden inputs = parameters['hidden inputs'] 


model = Sequential() 

model.add(Conv2D(32, (3, 3), padding^-^'same', 
input shape-input shape)) 

model.add(Activation('relu')) 


model. 
model. 
model. 
model. 


model. 
model. 
model. 
model. 
model. 
model. 


model. 
model. 
model. 
add (Dropout (dropout) ) 
model. 
.add(Activation('softmax')) 


model 


model 
opt - 
model 


add (Conv2D (32, (3, 3))) 

add (Activation ('relu')) 

add (MaxPooling2D (pool size-(2, 2))) 
add (Dropout (dropout)) 
add(Conv2D(64, (3, 3), padding-'same!)) 
add(Activation('relu!')) 
add(ConvZDí(64, (3, 3))) 
add(Activation('relu!')) 

add (MaxPooling2D (pool, size-(2, 2))) 
add (Dropout (dropout)) 


add (Flatten()) 
add (Dense (hidden inputs)) 
add(Activation('relu!')) 


add (Dense (n classes)) 


Adam(learning. rate) 


.compile(loss-'categorical crossentropy!', 


optimizer-opt, metrics-['accuracy!']) 


return model 
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5) 需要 定义 一 个 类 Network， 可 以 使 用 它 来 创建 一 个 具有 随机 参数 的 网 络 并 训练 网 络 ， 


而 且 它 应 该 能 够 检索 网 络 的 精度 : 


class Network(): 
def | init (self, parameter space-None): 
self.accuracy = 0. 
self.parameter_space = parameter_space 
self.network parameters = {} 


def set random parameters(self): 
for parameter in self.parameter space: 
self.network parameters[parameter] - 
random.choice(self.parameter space[parameter]) 
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def create network(self, network): 
self.network parameters - network 


def train(self): 
model - create model(self.network parameters, 
n classes, input shape) 
history = model.fit(X train, y train, 
batch size-batch, size, epochs-n epochs, 
verbose-0, validation data-(X val, y val), 
callbacks-callbacks) 
self.accuracy = max(history.history['val, acc']) 


6) 接 下 来 ， 将 再 定义 一 个 GA 种 群 类 。 通 过 所 定义 的 GA 类 能 够 创建 一 个 随机 的 种 群 
并 进化 一 一 包括 索 殖 与 突变 。 此 外 ， 它 应 该 能 够 检索 种 群 中 网 络 的 一 些 统计 数据 : 


class Genetic Algorithm(): 
def _ init (self, parameter space, retain-0.3, 
random select-0.1, mutate prob-20.25): 
self.mutate prob - mutate prob 


self.random select = random select 
self.retain = retain 
self.parameter space - parameter space 


def create population(self, count): 
population = [] 


for _ in range(0, count): 
network - Network(self.parameter. space) 
network.set random parameters () 
population.append (network) 


return population 


def get fitness (network): 
return network.accuracy 


def get grade(self, population): 
total = reduce(add, (self.fitness (network) 
for network in population)) 
return float(total) / len(population) 


def breed(self, mother, father): 


children = [] 
for _ in range(2): 
child = {} 
for param in self.parameter space: 
child[param] = random.choice( 


[mother.network[param], 
father.network[param]] 
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def 


network = Network(self.nn param choices) 
network.create set (child) 
if self.mutate chance » random.random(): 
network = self.mutate (network) 
children.append (network) 
return children 


mutate(self, network): 

mutation - random.choice(list 

(self.parameter space.keys())) 
network.network[mutation] = 

random.choice (self.parameter space[mutation]) 
return network 


evolve (self, pop): 

graded = [(self.fitness (network), 

network) for network in pop] 

graded = [x[1] for x in sorted (graded, 
key-lambda x: x[0], reverse-True)| 

retain length = int(len(graded)*self.retain) 


parents = graded[:retain length] 
for individual in graded[retain length:]: 


if self.random select » random.random(): 
parents.append(individual) 


parents, length len (parents) 
desired length = len (pop) - parents length 
children = [| 


while len(children) < desired length: 


male - random.randint(0, 
parents, length-1) 
female = random.randint(0, 


parents, length-1) 


if male !- female: 
male parents[male] 
female = parents[female] 


children new = self.breed(male, 
female) 


for child new in children new: 
if len(children) « desired length: 
children.append(child, new) 


parents.extend(children) 


return parents 
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7) 通过 最 后 一 个 函数 将 检索 一 个 种 群 的 平均 精度 : 


def get population, accuracy (population): 
total accuracy = 0 
for network in population: 
total accuracy += network.get accuracy 


return total accuracy / len(population) 


8) 现在 可 以 设置 想 要 探索 的 其 余 超 参 数 


n generations - 10 

population, size - 20 

parameter, space = { 
taroposts [0257 Do. Ostad; 
"hidden inputs': L256, 512; 1024]; 
'learning rate': [0.1, 0.01, 0.001, 0.0001] 


9) 接 下 来 ， 经 由 遗传 算法 来 创建 一 个 种 群 : 


GA = Genetic Algorithm(parameter space) 
population = GA.create population(population size) 


10) 开始 训练 遗传 算法 : 


for i in range (n generations): 
print('Generation {}'.format (i)) 


for network in population: 
network.train() 


average accuracy = get population accuracy (population) 
print('Average accuracy: (:.2f]!'. 
format (average accuracy)) 


# 进化 过 程 
if i « n generations - 1: 
S — GA.evolve (networks) 


——^A^A^^A—^A^—^——^ R—————^A^^€A€———A———^ (A^ ————A—A—AA—A—^ A—R————A——————————————————————————————————————————————————————————————————————————————— 


例如 ， 和 神经 网 络 图 层 的 数量 和 类 型 。 


(suben. 专注 于 优化 超 参 数 ， 但 是 GA 也 可 以 用 于 进化 完 


| 
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本 草 提 供 了 关于 神经 网 络 学 习 过 程 中 涉及 的 许多 方面 的 一 系列 方案 。 方 案 的 总 体 目 标 
是 提供 非常 简洁 和 具体 的 技巧 来 提升 网 络 的 性 能 。 

。 JH TensorBoard 和 Keras 可 视 化 训练 过 程 ; 

。 使 用 批量 和 小 批量 工作 ; 

。 使 用 网 格 搜索 调整 参数 ; 

。 学 习 率 和 学 习 率 调度 ; 

。 比 较 优 化 大 ; 

。 确 定 网 络 的 深度 ; 

。 湛 加 Dropout 以 防止 过 拟 合 ; 

。 通 过 数据 增 广 使 模型 更 鲁 棱 ; 

。 利 用 TTA 来 提高 精度 。 


12.4 简介 

优化 和 调整 深度 学 习 体系 结构 可 能 具有 挑战 性 。 有 时 ， 超 参数 的 微小 变化 会 对 训练 产 
生 很 大 的 影响 ， 导 致 性 能 下 降 。 另 一 方面 ， 过 拟 合 训练 数据 是 机 器 学 习 中 众所周知 的 问题 。 
在 本 章 中 ,将 演示 如 何 应 对 这 两 者 。 另 外 ， 也 将 演示 超 参数 调整 的 解决 方案 和 步骤 。 


12.2 用 TensorBoard 和 Keras 可 视 化 训练 过 程 

如 果 可 以 可 视 化 度量 结果 ,分 析 训 练 结 果 ( 在 训练 期 间或 训练 后 ) 将 会 更 方便 。 一 个 
很 好 的 工具 是 TensorBoard， 最 初 为 TensorFlow 开发 ， 它 也 可 以 用 于 其 他 框架 ， 如 Keras 和 
PyTorch。TensorBoard 使 人 们 能 够 跟 踩 损失、 度量 、 权 重 、 输 出 等 。 在 下 面 的 内 容 中 ， 将 加 
读者 展示 如 何 使 用 Keras 的 TensorBoard， 并 利用 它 来 交互 式 地 显示 训练 数据 。 


如 何 去 做 … 
1 ) 首先 ， 用 Python 导入 所 需 的 函数 库 ， 如 下 所 示 : 
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from keras.datasets import cifar10 

from keras.preprocessing.image import ImageDataGenerator 
from keras.models import Sequential 

from keras.layers import Dense, Dropout, Activation, Flatten 
from keras.layers import Conv2D, MaxPooling2D 

from keras.optimizers import Adam 

from keras.callbacks import EarlyStopping, TensorBoard, 
ModelCheckpoint 

from keras.utils import to categorical 


2 ) 为 本 例 加 载 CIFAR TO 数据 集 并 预 处 理 训 练 和 验证 数据 : 


(X train, y train), (X val, y val) = cifar10.1oad data() 


X train = X train.astype('float32') 
X train /s255. 

X val = X val.astype('float32') 

X val /-255. 


n classes = 10 
y. train = to categorical(y train, n classes) 
y. val = to categorical(y val, n, classes) 


3) 接 下 来 ， 定义 网 络 结构 : 


model = Sequential() 
model.add(Conv2D(32, (3, 3), padding^-^'same', 
input shape-X train.shape[1:])) 
model.add(Activation('relu')) 
model.add(Conv2D(32, (3, 3))) 
model.add(Activation('relu!')) 
model.add(MaxPooling2D (pool, size-(2, 2))) 
model.add (Dropout (0.25)) 
model.add(Conv2D(64, (3, 3), padding-^'same!')) 
model.add(Activation('relu!')) 
model.add(Conv2D(64, (3, 3))) 
model.add(Activation('relu')) 
model.add(MaxPooling2D (pool, size-(2, 2))) 
model.add (Dropout (0.25)) 


model.add(Flatten()) 
model.add(Dense(512)) 
model.add(Activation('relu')) 
model.add (Dropout (0.95)) 
model.add(Dense (n classes)) 
model.add(Activation('softmax')) 
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4) 使 用 默认 设置 的 Adam 优化 需 


opt = Adam() 
model.compile(loss-'categorical crossentropy', optimizer-opt, 
metrics-['accuracy!']) 


5) 接 下 来 ， 使 用 Keras 的 ImageDataGenerator 将 数据 增 广 添加 到 数据 集中 : 


data gen = ImageDataGenerator( 
rotation range-15, 
width, shift range-0.15, 
height shift range-0.15, 
horizontal flip-True, 
vertical, flip-False) 


data gen.fit(X train) 


6) 在 回调 函数 中 ， 将 按 如 下 步骤 添加 TensorBoard : 


callbacks = [EarlyStopping (monitor='val_acc', patience-5, 
verbose-2), ModelCheckpoint('checkpoints/weights. 
{epoch:02d}.hdf5', save best only-True), 
TensorBoard('-/notebooks/logs', 

write graph-True, write grads-True, write images-True, 
embeddings freq-0, embeddings layer names-None, 
embeddings, metadata-None)] 


7) 接 下 来 ， 登录 一 个 新 的 终端 窗口 。 如 果 登 录 到 服务 器 ， 请 确保 开启 一 个 到 服务 器 的 
新 连接 ， 并 对 SSH 通道 使 用 不 同 的 端口 ， 例 如 使 用 GCP (使 用 目 己 的 命名 替换 实例 区 域 和 
实例 名 称 ): 


gcloud compute ssh --ssh-flag="-L 6006:1ocalhost:6006"  --zone 
"instance-zone" "instance-name" 


8) 登录 后 ， 可 以 启动 TensorBoard 3EfZ, "ll P irn : 


tensorboard --logdir-z'-/notebooks/logs' 


2X vm d HH n] LAXE S£ TensorBoard 的 位 置 ， 例 如 http : //instance-name : 6006。 在 此 实 
例 中 ， 因 为 已 经 启用 了 SSH 通道， 可 以 到 本 地 浏览 器 并 使 用 地 址 http : //localhost : 6006/ 
来 访问 仪表 板 。TensorBoard 将 不 会 显示 任何 数据 。 
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9 ) 现在 回 到 Python 环境 ， 开 始 训练 重型 ; 


model.fit generator (data gen.flow(X train, 


y train, 
batch size-batch size), 


steps per epoch-X train.shape[0] // batch size, 
epochs-n, epochs, 

validation data-(X val, y val), 
callbacks-callbacks 
) 


开始 训练 模型 后 ， 应 该 看 到 数据 进入 TensorBoard 仪表 板 。 几 12.1 所 示 是 10 个 周期 后 
的 输出 。 


TensorBoard 


SCALARS GRAPHS PROJECTOR INACTIVE 
[C] Show data download links a $i 
Ignore outliers in chart scaling 
; a 4 
Tooltip sorting method: default 5 Tags matching /.*/ (all tags) 
acc val acc 

Smoothing | 

0.700 4 
————————$— — 06 0.600 | 
0.640 
0.500 4 


Horizontal Axis 


STEP RELATIVE WALL 0.300 


0.000 2.000 4.000 6.000 8.000 


0.000 2.000 44.000 6.000 8.000 


Runs 


0.000 2.000 4.000 6.000 8.000 
s Bm 5 mE m 
Write a regex to filter runs val loss 
O. 1.40 

1.20 
1.00 
0.800 
0.000 2.000 4.000 6.000 8.000 
nu s3 
acc 
loss 
TOGGLE ALL RUNS val. acc 


/home/indradenbakker/notebooks/logs val loss 


一 ex ES en 


图 12.1 训练 10 个 周期 后 的 TensorBoard 仪表 板 示例 


TensorBoard 为 监控 训练 数据 提供 了 很 大 的 灵活 性 。 正 如 在 前 面 的 屏幕 截图 中 所 看 到 
的 ， 可 以 交互 式 地 调整 平 请 参数 。 这 只 是 与 TensorBoard 合作 的 许多 优势 之 一 。TensorBoard 
的 男 一 个 重要 特性 是 能 够 使 用 TSNE 或 PCA 可 视 化 训练 数据 。 切 换 到 PROJECTOR 选项 
卡 ， 输 出 应 该 如 图 12.2 所 示 。 
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TensorBoard R RAPH PROJECTOR INACTIVE 


Checkpoint: /home/indradenbakker/notebooks/ 
tflearn.Istm.model 


TSNE CUSTOM 
Dimension DE 20 
plexiy@ &———————— 5 . 


e 

e 

e $h e 
9 


BOOKMARKS (0) € ^ 


图 12.2 在 训练 数据 上 训练 TSNE 的 一 个 实例 


12.3 ”使 用 批量 和 小 批量 工作 

训练 神经 网 络 时 ， 将 训练 数据 加 载 入 网 络 。 训 练 数据 的 一 次 全 面 扫描 称 为 一 个 周期 。 
如 果 一 步 完 成 所 有 的 训练 数据 ， 这 称 为 批 处 理 模式 ( 批量 大 小 等 于 训练 集 的 大 小 )。 然 而 
在 大 多 数 情况 下 ， 将 训练 数据 分 成 较 小 的 于 集 ， 同 时 将 数据 提供 给 模型 ,就 像 其 他 机 各 学 
习 算 法 一 样 ， 这 称 为 小 批量 模式 。 有 时 候 ， 不 得 不 这 样 做 ， 因 为 完整 的 训练 集 太 大 ， 不 
适合 存储 。 如 果 仅 考虑 训练 时 间 ， 那 么 批量 越 大越 好 〈 只 要 批 次 适合 内 存 )。 使 用 小 批量 
还 有 其 他 优点 : 背 和 完 ， 它 降低 了 训练 过 程 的 复杂 性 ; 其 次 ， 通 过 求 和 或 平均 梯度 ( 减 小 
方差 ) 来 降低 噪声 对 模型 的 有 影响。 在 小 批量 模式 下， 优化 带 在 效率 和 和 鲁 棒 性 两 者 间 采 用 
茶 种 平衡 。 

如 果 小 批量 的 数量 〈 也 称 为 批量 数量 ) 太 小 ， 则 该 模型 可 以 更 快 地 收敛 ,但 更 能 吸收 
噪声 。 如 末 批 量 太 大 ， 桂 型 可 能 收敛 慢 一 点 ,但 是 误差 梯度 的 信 计 会 更 准确 。 对 于 深度 学 
习 ， 在 处 理 大 量 数据 时 ,使 用 大 批量 处 理 是 适合 的 。 这 些 批 处 理 也 非常 适合 在 GPU 上 进行 
并 行 处 理 。 在 下 面 的 内 容 中 ， 将 癌 读 者 展示 调整 批量 大 小 时 要 采取 的 步 又 及 示例 。 


如 何 去 做 … 
1 ) 开始 导入 所 用 函数 库 ， 如 下 所 示 
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度 学 习 实 战 : 


学 习 的 解决 方案 


from keras.datasets import cifar10 

from keras.preprocessing.image import ImageDataGenerator 
from keras.models import Sequential 

from keras.layers import Dense, Dropout, Activation, Flatten 
from keras.layers import Conv2D, MaxPooling2D 

from keras.optimizers import Adam 

from keras.callbacks import EarlyStopping, TensorBoard, 
ModelCheckpoint 


2) 使 用 CIFARI0 数据 集 进 


(X train, y train), (X test, y test) - 

X train = X train.astype('float32')/255. 

X test = X test.astype('float32!)/255. 

n classes - 10 

y train = keras.utils.to categorical(y train, 
y test = keras.utils.to categorical(y test, 


3) 作为 模型 


的 完 连 接 层 : 
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model Sequential () 
model.add(Conv2D(32, (3, 3) 
input, shape-X train.shape[1: 
model.add(Activation('relu' 
model.add(Conv2D(32, (3, 3)) 
model.add(Activation('relu')) 
model.add(MaxPooling2D (pool. size- 
model.add(Dropout (0.25)) 


1)) 
) ) 
) 


(2, 


model.add(Conv2D(64, (3, 3) 
model.add(Activation('relu' 
model.add(Conv2D(64, (3, 3) 
model.add(Activation('relu' 
model.add(MaxPooling2D (pool size- 
model.add (Dropout (0.25)) 


(2, 


model.add(Flatten()) 
model.add(Dense(512)) 
model.add(Activation('relu 
model.add (Dropout (0.5)) 
model.add (Dense (n_classes)) 
model.add(Activation('softmax 


')) 
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4) 定义 Adam 优化 器 并 编译 该 模型 ， 


结构 ， 使 用 直接 卷 积 神 经 网 络 ， 


行 实验 ， 加 载 数据 并 进 


2))) 


了 预 处 理 : 


cifar10.1oad data() 


n classes) 
n classes) 


具有 卷 积 块 ( 两 个 卷 积 层 ) 和 输出 层 之 前 


; padding-^'same', 


padding-2'same')) 
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opt = Adam (lr=0.0001) 
model.compile(loss-'categorical crossentropy', optimizer=opt, 
metrics-['accuracy!']) 


5) 因为 想 要 使 所 建 模 型 更 加 和 鲁 棒 ， 将 使 用 一 些 数 据 增 广 来 进行 训练 : 


datagen = ImageDataGenerator( 
rotation range-15, 
width shift range-0.15, 
height shift range-0.15, 
horizontal flip-True, 
vertical flip-False) 


datagen.fití(x train) 


6) Be Pok, WEISE, MAEHE ARES, Di ModelCheckpoint 
目 动 保 存 最 佳 模型 ， 并 使 用 TensorBoard 分 析 结 


callbacks = [EarlyStopping (monitor='val_acc', patience-5, 
verbose-2), ModelCheckpoint('checkpoints/weights. 
1epooh:DZd]— -cstribaten S126e) "*.Dhdrf5*, 

save best only-True),  TensorBoard()] 


7) 开始 建立 第 一 个 模型 ， 批 量 大 小 为 32 : 


batch size = 32 

n epochs = 1000 

history 32 = model.fit generator(datagen.flow(X train, y train, 

batch size-batch size), 

steps per epoch-X train.shape[0] // batch size, 
epochs-epochs, 
validation data-(X val, y val), 
callbacks-callbacks 


~ 


8) 接 下 来 ， 重 新 编 详 该 模型 ， 以 确 你 权重 的 初始 化 : 


model.compile(loss-'categorical crossentropy', optimizer-opt, 
metrics-['accuracy!']) 


9) 现在 可 以 开始 以 256 的 批量 大 小 来 训练 所 建 模 型 : 
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256 
model.fit generator(datagen.flow(X train, y train, 
batch, size-batch size), 
steps per epoch-X train.shape[0] // batch, size, 
epochs-epochs, 
validation data-(X val, y val), 
callbacks-callbacks 


batch size 
nIrStory-32 


这 两 个 模型 的 验证 精度 与 周期 数量 的 变化 情况 如 图 12.3 和 图 12.4 所 示 ( 使 用 早 集 方法 )。 


验证 精度 
0.800 
0.760 | 
0.720 . 


0.680 -| 


0.640 4 


0.000 10.00 20.00 | 30.00 40.00 


图 12.3 ”批量 大 小 为 32 的 模型 验证 精度 
验证 精度 


0.800 4 
0.700 - 


0.600 4 


0.000 20.00 40.00 60.00 
图 12.4 批量 大 小 为 256 的 模型 验证 精度 


因此 注意 到 两 个 模型 的 结果 有 很 多 不 同 之 处 。 正 如 预期 的 那样 ， 当 使 用 更 大 批量 的 数 
据 时 ， 需 要 更 多 的 周期 (理论 上 ， 无 论 批 量 大 小 如 何 ， 收 敛 的 步 桑 总数 / 更 新 数 应 该 是 相同 
HJ). 然而 更 有 趣 的 是 ， 批 量 大 小 为 256 WRA BS SS uET BENE ES 26, KAIN 0.8496. Tidit 
量 大 小 为 32 的 模型 在 79% 左 右 。 当 用 较 小 的 批量 训练 所 建 模 型 时 ， 村 型 可 能 会 增加 一 点 品 
声 。 然 而 通过 进一步 微调 模型 ( 例如 ， 使 用 早 停 方法 和 降低 学 习 率 )， 批 量 大 小 为 32 的 模 
型 应 该 能 够 达到 相似 的 精度 。 
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12.4 使 用 网 格 搜索 调整 参数 
调整 超 参数 是 一 项 耗 时 且 计 算 量 巨大 的 任务 。 在 本 书 中 ， 只 关注 超 参数 的 调 优 。 大 多 
数 结果 是 用 预先 选 定 的 值 获 得 的 。 要 选择 正确 的 值 ， 可 以 使 用 局 发 式 或 泛 网 格 搜索 。 网 格 
搜索 是 机 融 学 习 中 滑 用 的 参数 调整 方法 。 
在 下 面 的 内 容 中 ， 将 演示 如 何在 构建 深度 学 习 模 型 时 应 用 网 格 搜索 。 为 此 要 使 用 
Hyperopt 工具 。 


如 何 去 做 … 
1 ) 首先 导入 这 个 方案 中 要 使 用 的 函数 库 : 


import sys 
import numpy as np 


from hyperopt import fmin, tpe, hp, STATUS OK, Trials 


from keras.models import Sequential 

from keras.layers import Dense, Dropout, Activation, Flatten 
from keras.layers import Conv2D, MaxPooling2D 

from keras.optimizers import Adam 

from sklearn.model selection import train test split 

from keras.utils import to categorical 

from keras.callbacks import EarlyStopping, TensorBoard, 
ModelCheckpoint 


from keras.datasets import cifar10 


2) 接 下 来 ， 加 和 载 cifar10 数据 集 并 预 处 理 数 据 : 


(X train, y train), (X test, y test) = cifar1i0.load data() 
validation split = 0.1 
X train, X val, y train, y val = train test split(X train, y train, 


test size-validation split, random state-SEED) 


X train = X train.astype('float32') 
X train /5255; 

X val = X val.astype('float32') 

X wal /2255,; 

X test = X test.astype('float32!) 

X test /-255. 


n classes - 10 
y. train = to categorical(y train, n classes) 


y. val = to categorical(y val, n, classes) 
y. test = to categorical(y test, n classes) 


3) 可 以 为 不 同 的 超 参数 设置 搜索 空间 : 
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Space = { 
'batch size' : hp.choice('batch size', [32, 64, 128, 
295]J), 'noepochs' * 1000; 


——————^^A^LR^^^^——^£——€^AA^A^A^A^A^^A^A O————A—A——A———————————————————————————————————————————————————————————————————————————————————————————————— 


当 使 用 Hyperopt 时 ， 将 有 很 多 的 自由 度 及 设置 可 进行 测试 ， 也 可 以 调整 网 络 结 
构 。 例 如 ， 可 以 动态 设置 图 层 的 数量 。 


L = = = = = e e e e e e e e e e e e e e e e o e e e o o o o o o e o o e o oe o e e o o e e o o o o e e o e o e o e e e e o o e e o e e e o e o e o e e e e e e e e e e e e e e o e e e e e e e e e e e e e e o 


4 ) 通过 TensorBoard 使 用 回调 函数 来 进行 训练 过 程 的 早 停 、 设 置 检查 点 并 可 视 化 结 


def get callbacks (pars): 

callbacks -[EarlyStopping (monitor-'val, acc', p atience-5, 
verbose-2), 
ModelCheckpoint('checkpoints/().h5'.format(pars['batch size']), 
Save best, only-True), 

TensorBoard('-/notebooks/logs-gridsearch'!, 

write graph-True, write grads-True, write images-True, 
embeddings freq-0, embeddings layer. names-None, 
embeddings, metadata-None)] 

return callbacks 


5) 接 下 来 ,定义 一 个 想 要 最 小 化 的 目标 孔 数 。 这 个 函数 包括 网 络 结构 、 超 参数 、 结 采 
以 及 其 他 想 要 包含 的 内 容 。 确 保 在 成 功 运 行 的 return 语句 中 包含 状态 STATUS OK : 


def f_nn (pars): 
print ('Parameters: ', pars) 
model = Sequential () 
model.add(Conv2D(32, (3, 3), padding='same', 
input, shape-X train.shape[1:])) 
model.add(Activation('relu')) 
model.add(Conv2D(32, (3, 3))) 
model.add(Activation('relu')) 
model.add(MaxPooling2D (pool size-(2, 2))) 
model.add (Dropout (0.25)) 
model.add(Conv2D(64, (3, 3), padding='same')) 
model.add(Activation('relu!') 
model.add(Conv2D(64, (3, 3))) 
model.add(Activation('relu!')) 
model.add(MaxPooling2D (pool size-(2, 2))) 
model.add (Dropout (0.25)) 


) 


model.add(Flatten()) 
model.add(Dense(512)) 
model.add(Activation('relu')) 
model.add (Dropout (0.5)) 
model.add (Dense (n classes)) 
model.add(Activation('softmax')) 
optimizer - Adam() 
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model.compile(loss-'categorical crossentropyv', 
optimizer-optimizer, metrics-['accuracy!]) 
history = model.fit(X train, y train, epochs-pars['n epochs!], 
batch size-pars['batch, size'], 
validation data-[X val, y val], 
verbose = 1, callbacks-^get  callbacks (pars)) 
best epoch = np.argmax(history.history['val, acc']) 
best val acc = np.max(history.history['val acc']) 
print('Epoch {} - val acc: í)'.format (best epoch, 
best, val, acc)) 
Sys.stdout.flush() 
return ('val acc': best val acc, 'best epoch': best epoch, 
'eval time': time.time(), 'status': STATUS OK! 


6) 现在 可 以 初始 化 ， 并 开始 网 格 搜 索 ， 并 呈现 最 终结 采 如 下 : 


trials = Trials() 

best = fmin(f nn, space, algo-tpe.suggest, max evals-50, 
trials-trials) 

print (best) 


站 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 


如 果 想 通过 多 个 GPU 并 行进 行 训练 ， 则 需要 使 用 MongoDB 创建 处 理 异 步 更 新 | 
的 数据 库 。 


[a el reram 


12.5 ”学习 率 和 学 习 率 调度 

使 用 较 小 的 学 习 紊 有 助 于 避免 局 部 最 优化 ， 但 是 通常 需要 较 长 的 时 间 才 能 收敛 。 什 么 
可 以 帮助 缩短 训练 时 间 ?” 可 以 使 用 一 个 预 热 期 。 在 这 个 时 期 ， 可 以 在 前 几 个 周期 使 用 更 大 
的 学 习 率 。 经 过 一 定 的 周期 后 ， 可 以 降低 学 习 率 。 甚 至 有 可 能 在 每 一 步 后 都 降低 学 习 速 度 ， 
但 不 推 存 这 样 做 ， 因 为 可 能 更 会 更 好 地 使 用 不 同 的 优化 希 〈 例 如 ， 如 果 想 使 用 可 减 ， 可 以 
指定 它 作为 超 参 数 )。 从 理论 上 讲 ， 当 预 热 时 段 的 学 习 速 度 太 快 时 ， 可 能 就 根本 无 法 达到 全 
局 的 最 优 状态 。 

在 下 面 的 内 容 中 ， 将 演示 如 何 设 置 Keras 目 定 义学 习 速 率 调 度 程序 。 


如 何 去 做 … 
1 ) 开始 导入 所 用 函数 库 ， 如 下 所 示 : 
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import math 


from keras.models import Sequential 

from keras.layers import Dense, Dropout, Activation, Flatten 
from keras.layers import Conv2D, MaxPooling2D 

from keras.optimizers import SGD 

from sklearn.model selection import train test split 

from keras.utils import to categorical 

from keras.callbacks import EarlyStopping, TensorBoard, 
ModelCheckpoint, LearningRateScheduler, Callback 

from keras import backend as K 

from keras.datasets import cifar10 


2) 接 下 来 ， 加 载 和 预 处 理 数 据 : 


(X train, y train), (X test, y test) = cifarí0.1load data() 
validation split = 0.1 
X train, X val, y train, y val = train test split(X train, y train, 


test size-validation split, random state-SEED) 


X train = X train.astype('float32') 
X irain f/-255. 

X val = X val.astype('float32') 

X val /-2255. 

X test = X test.astype('float32') 

X test /=259. 


n_classes = 10 

y_train = to_categorical(y_train, n_classes) 
y_val = to_categorical(y_val, n_classes) 

y test = to categorical(y test, n classes) 


3) 设置 学 习 率 ， 如 下 : 


learning rate schedule = (0: '0.1', 10: '0.01', 25: '0.0025'} 


class get learning rate (Callback): 
def on, epoch end(self, epoch, logs={}): 
optimizer = self.model.optimizer 
if epoch in learning rate schedule: 
K.set value(optimizer.lr, 

learning. rate schedule[epoch]) 
lr = K.eval(optimizer.lr) 
print(i'inlrs Ti4f]".formabitlLe)) 
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余 了 目 定义 的 回调 函数 ，Keras 还 提供 了 一 个 方便 的 LearningRateScheduler 和 | 
ReduceLROnPlateau 回调 函数 。 通 过 这 些 回 调 函数 ， 如 果实 监控 的 损失 函数 或 | 


度量 达到 稳定 状态 ， 可 以 实现 一 个 与 周期 相关 的 学 习 率 方案 或 降低 学 习 率 。 


和 


4 ) 将 日 定义 函数 添加 到 回调 函数 列表 中 : 


callbacks =[EarlyStopping (monitor='val acc', patience-5, 
verbose-2), 
ModelCheckpoint ('checkpoints/Ííepoch:02d).h5', 
save best only-True), 
TensorBoard('-«/notebooks/logs-lrscheduler', 
write graph-True, write grads-True, 
write images-True, embeddings, freq-0, 
embeddings, layer, names-None, 
embeddings, metadata-None), 
get learning. rate () 


] 


5 ) 现在 可 以 定义 和 编 详 所 建 模 型 : 


model = Sequential() 
model.add(Conv2D(32, (3, 3) 
input, shape-X train.shape[1:] 
model.add(Activation('relu')) 
model.add(Conv2D(32, (3, 3))) 
model.add(Activation('relu')) 
model.add(MaxPooling2D (pool, size-(2, 2))) 
model.add(Dropout (0.25)) 


; padding-'same'!, 


) ) 


model.add(Conv2D(64, (3, 3), 
model.add(Activation('relu')) 
model.add(Conv2D(64, (3, 3))) 
model.add(Activation('relu')) 
model.add(MaxPooling2D (pool, size-(2, 2))) 
model.add (Dropout (0.25)) 


padding='same')) 


model.add(Flatten()) 

model.add(Dense(512)) 
model.add(Activation('relu!')) 

model.add (Dropout (0.5)) 
model.add (Dense (n classes)) 
model.add(Activation('softmax')) 

optimizer - SGD() 
model.compile(loss-'categorical, crossentropy', 
optimizer-optimizer, metrics-['accuracy!']) 


6) 最 后 ， 可 以 开始 训练 。 该 者 会 注意 到 学 习 率 符 合 设 定 的 进度 : 
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n epochs - 20 
batch, size = 128 


history = model.fit(X train, y train, epochs-n, epochs, 
batch size-batch, size, 

validation data-[X val, y. val], 

verbose = 1, callbacks-callbacks) 


12.06 ”比较 优化 器 

在 第 2 章 前 馈 神 经 网 络 中， 简要 地 演示 了 使 用 不 同 的 优化 器 。 当 然 ， 只 使 用 了 一 
个 大 小 为 1 的 测试 集 。 对 于 其 他 机 器 学 习 算 法 ,深度 学 习 中 使 用 最 广泛 和 最 著名 的 优化 器 
是 随机 梯度 下 降 (SGD )。 其 他 优化 器 是 SOD 的 变种 ， 试 图 通过 增加 启发 式 来 加 速 收敛 。 
另外 ， 有 些 优化 器 调整 的 超 参数 较 少 。 第 2 章 ， 前 馈 神 经 网 络 ”中 的 表格 对 深度 学 习 中 最 
常用 的 优化 器 进行 了 概述 。 

有 人 可 能 会 争辩 说 ， 这 种 选择 在 很 大 程度 上 取决 于 用 户 调整 优化 器 的 能 力 。 绝 对 没有 
理想 的 解决 方案 能 适合 所 有 问题 ， 但 是 有 些 优 化 器 要 调整 的 参数 很 少 ， 并 且 已 经 被 证 明 优 
于 其 他 默认 设置 的 优化 器 。 除 了 在 第 2 章 前 馈 神 经 网 络 ”中 的 测试 之 外 ,将 在 下 面 的 内 
容 中 进行 另 一 个 测试 来 比较 优化 器 。 


如 何 去 做 … 
1 ) 首先 加 载 函 数 库 ， 如 下 : 


import numpy as np 
import pandas as pd 
from matplotlib import pyplot as plt 


from sklearn.model selection import train test split 

from keras.models import Sequential 

from keras.layers import Dense, Dropout 

from keras.wrappers.scikit learn import KerasRegressor 

from keras.callbacks import EarlyStopping, ModelCheckpoint 

from keras.optimizers import SGD, Adadelta, Adam, RMSprop, Adagrad, 
Nadam, Adamax 


2) 对 于 此 测试 ， 将 创建 训练 集 、 验 证 集 和 测试 集 ， 并 对 所 有 数据 集 进 行 预 处 理 ， 如 下 
IPSE 
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(X train, y train), (X test, y test) = cifarí10.1load data() 
validation split = 0.1 
X train, X val, y train, y val = train test split (X train, y train, 


test size-validation split, random state-SEED) 


X train = X train.astype('float32') 
X Crain A755. 

X val = X val.astype('float32') 

X val /=255. 

X test = X test.astype('float32!) 

X test /-255. 


n classes - 10 

y train = to categorical(y train, n classes) 
y. Val = to, categorical(y val, n classes) 

y test = to categorical(y test, n classes) 


3) 接 下 来 ， 定 义 一 个 创建 模型 的 函数 : 


def create model (opt): 

model - Sequential() 

model.add(Conv2D(32, (3, 3), padding^-^'same', 
input, shape-x train.shape[1:])) 
model.add(Activation('relu!')) 
model.add(Conv2D(32, (3, 3))) 
model.add(Activation('relu!')) 
model.add(MaxPooling2D (pool, size-(2, 2))) 
model.add (Dropout (0.25)) 
model.add(Conv2D(64, (3, 3), padding='same')) 
model.add(Activation('relu!')) 
model.add(Conv2D(64, (3, 3))) 
model.add(Activation('relu!)) 
model.add(MaxPooling2D (pool, size-(2, 2))) 
model.add (Dropout (0.25)) 


model.add(Flatten()) 

model.add(Dense(512)) 

model.add(Activation('relu!)) 

model.add (Dropout (0.5)) 

model.add (Dense (num_classes)) 

model.add(Activation('softmax!)) 
return model 


4) HIN, 8 22 8 EE —^1- PRO XE X VITE KA E 2288 H IS De 8] PR : 
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def create callbacks (opt): 
callbacks = [EarlyStopping(monitor-'val acc', patience-5, 
verbose-2), 
ModelCheckpoint('checkpoints/weights.Ííepoch:02d)- 
'Froptt'.h5', save best only-False, verbose-True), 
TensorBoard()] 
return callbacks 


5) 创建 一 个 人 们 想 要 答 试 的 优化 希 字 典 : 


opts = dict ({ 

'sgd': SGD(), 

'sgd-0001': SGD(1r20.0001, decay-20.00001), 
'adam': Adam(), 

'adam': Adam(1r-20.0001), 

'adadelta': Adadelta(), 

'rmsprop': RMSprop(), 

'rmsprop-0001': RMSprop(lr-20.0001), 
'nadam': Nadam(), 

'adamax': Adamax() 


} ) 


也 可 以 使 用 Hyperopt 来 运行 不 同 的 优化 带 ， 而 不 是 实现 上 自己 的 脚本 。 请 参阅 使 用 网 格 


搜索 调整 参数 相关 内 容 。 
6 ) 训练 网 络 并 存储 结 


n_epochs = 1000 
batch size = 128 


results = [] 
dona 
for opt in opts: 
model = create model (opt) 
callbacks = create callbacks (opt) 
model.compile(loss-'categorical crossentropy', 
optimizer-opts[opt], metrics-['accuracy!]) 
hist - model.fit(X train, y train, batch size-batch size, 
epochs-n epochs, 
validation data-(X val, y val), 
verbose-1, 
callbacks-callbacks) 


best epoch = np.argmax(hist.history['val, acc']) 
best acc = hist.history['val acc'][best epoch] 
best model = create model (opt) 


# 加 载 具 有 最 高 验证 精度 的 模型 权重 

best model.load weights('checkpoints/weights.1(:02d])- 
{}.h5' .format (best epoch, opt)) 

best model.compile(loss-'mse', optimizer-opts[opt], 
metrics-['accuracy!']l) 

Score = best model.evaluate(X test, y test, verbose-0) 

results.append([opt, best epoch, best acc, score[1]]) 
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7) 比较 结 


res = pd.DataFrame (results) 

res.columns = ['optimizer', 'epochs', 'val accuracy', 'test last', 
'test accuracy'] 

res 


8) 得 到 的 结果 如 图 12.5 所 示 。 


ea Jeon en w 
dem e em oem 
de o em em — 


dem pm em em — 
deem e em em — 


图 12.5 使 用 不 同 优 化 需 对 cifar10 数据 集 进行 训练 的 结 


12.7 ”确定 网 络 的 深度 

当 从 头 开 始 建 立 深 度 学 习 模 型 时 ， 事 先 很 难 确 定 应 该 堆 关 多 少 (不 同类 型 ) 层 。 一 般 
来 说 ， 参 看 一 个 著名 的 深度 学 习 模 型 是 一 个 好 主意 ， 并 将 其 作为 进一步 构建 的 基础 。 一 般 
来 说 ， 尽 可 能 多 地 尝试 过 拟 合 训练 数据 是 很 好 的 ， 这 确保 模型 能 够 在 输入 数据 上 进行 训练 。 
之 后 ， 运 用 dropout 等 正则 化 技术 来 防止 过 拟 合 ， 提 升 泛 化 能 


12.8 添加 Dropout 以 防止 过 拟 合 

在 第 2 章 ”前 馈 神 经 网 络 ”中 介绍 了 Dropout， 而 且 在 整 本 书 中 都 使 用 了 Dropout。 就 
像 第 2 章 一 样 ， 在 下 面 的 内 容 中 将 演示 添加 Dropout 所 市 来 的 性 能 差异 ， 这 一 次 将 使 用 
CIFAR10 数据 集 。 


如 何 去 做 … 
1 ) 首先 导入 所 用 函数 库 ， 如 下 所 示 : 
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from keras.models import Sequential 

from keras.layers import Dense, Dropout, Activation, Flatten 
from keras.layers import Conv2D, MaxPooling2D 

from keras.optimizers import Adam 

from sklearn.model selection import train test split 

from keras.utils import to categorical 

from keras.callbacks import EarlyStopping, TensorBoard, 
ModelCheckpoint 


from keras.datasets import cifar10 


2) 接 下 来 ， 加 载 CIFAR10 数据 集 并 对 其 进行 预 处 理 : 


(X train, y train), (X test, y test) = cifarí0.1load data() 
validation split = 0.1 

X train, X val, y train, y val = train test split(X train, y train, 
test size-validation split, random state-SEED) 


X train = X train.astype('float32') 
X train /-2255. 

X val = X val.astype('float32') 

X val /-2255. 

X test = X test.astype('float32') 

X test /-255. 


n classes - 10 

y. train = to categorical(y train, n classes) 
y. val = to categorical(y. val, n, classes) 

y. test = to categorical(y test, n classes) 


3) 为 了 监控 训练 并 防止 过 拟 合 ， 引 入 回调 函数 : 


callbacks -[EarlyStopping(monitor-'val acc', patience-5, 
verbose-2), 

ModelCheckpoint('checkpoints/Ííepoch:02d).h5', 
save best, only-True), 

TensorBoard('-«/notebooks/logs-lrscheduler', 
write graph-True, write grads-True, write images-True, 
embeddings freq-0, embeddings layer names-None, 
embeddings, metadata-None), 


] 


4) 接 下 来 ， 定义 模型 结构 并 编 详 模型 : 
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model = Sequential() 
model.add (Conv2D (32, (3, 3) 
input, shape-X train.shape[1:]1])) 
model.add(Activation('relu')) 
model.add(Conv2D(32, (3, 3))) 
model.add(Activation('relu')) 
model.add(MaxPooling2D (pool, size-(2, 2))) 
# model.add (Dropout (0.25)) 


; padding-^'same', 


model.add(Conv2D(64, (3, 3), padding-^'same!')) 
model.add(Activation('relu')) 
model.add(Conv2D(64, (3, 3))) 
model.add(Activation('relu!')) 

model.add(MaxPooling2D (pool, size-(2, 2))) 


# model.add (Dropout (0.25)) 


model.add(Flatten()) 

model.add(Dense(512)) 
model.add(Activation('relu!')) 

# model.add (Dropout (0.5)) 

model.add(Dense(n classes)) 
model.add(Activation('softmax!')) 

optimizer = SGD() 
model.compile(loss-'categorical, crossentropy', 


optimizer-optimizer, metrics-['accuracy!']) 


5 ) 开始 训练 : 


n epochs = 1000 
batch size = 128 


history = model.fit(X train, y train, epochs-n epochs, 
batch size-batch size, 

validation data-[X val, y. val], 

verbose = 1, callbacks-callbacks) 


6) MÆ, I Dropout 到 所 建 模 型 结构 中 。 在 每 个 卷 积 块 之 后 和 全 连接 层 之 后 执行 此 
操作 : 
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model dropout = Sedquent1Ial () 

model dropout.add(Conv2D(32, (3, 3), padding^-^'same', 
input, shape-X train.shape[1:])) 

model dropout.add(Activation('relu')) 

model dropout.add(ConvZ2D(32,. (3, 3))) 

model dropout.add(Activation('relu')) 

model dropout.add(MaxPooling2D (pool size-(2, 2))) 
model dropout.add(Dropout (0.25)) 
model dropout.add(Conv2D(64, (3, 3), padding-^'same!)) 
model dropout.add(Activation('relu')) 
model dropout.add(Conv2D(64, (3, 3))) 
model dropout.add(Activation('relu')) 

model dropout.add(MaxPooling2D (pool size-(2, 2))) 
model, dropout.add(Dropout (0.25)) 


model dropout.add(Flatten()) 

model dropout.add (Dense(512)) 

model dropout.add(Activation('relu')) 

model, dropout.add(Dropout (0.5)) 

model dropout.add(Dense (n, classes)) 

model, dropout.add(Activation('softmax!')) 

optimizer - Adam() 

model, dropout.compile(loss-'categorical, crossentropy', 
optimizer-optimizer, metrics-['accuracy!']) 


7) 再 次 从 头 开始 训练 : 


n epochs = 1000 
batch, size = 128 


history dropout = model dropout.fit(X train, y train, 
epochs-n epochs, batch size-batch, size, 

validation data-[X val, y val], 

verbose = 1, callbacks-callbacks) 


8) 绘制 没有 Dropout 模型 的 训练 和 验证 精度 : 


aplt.plotí(np.arange(len(history.history['acc!']l)), 
history.history['acc'], label-2'training!') 
plt.plotí(np.arange(len(history.history['val acc'])), 


history.history['val acc'], label-2'validation') 
plt.title('Accuracy of model without dropouts') 
plt.xlabel(í('epochs') 

plt.ylabel('accuracy') 

plt.legend(loc-20) 

plt.show() 


从 图 12.6 中 可 以 看 到 模型 显然 对 训练 数据 进行 了 过 拟 合 。 
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没有 Dropout 的 模型 精度 


一 一 训练 集 
一 一 验证 集 


迭代 周期 
图 12.6 Æ Dropout 模型 的 精度 


9) 最 后 ， 具 有 Dropout 模型 的 训练 和 验证 精度 : 


plt.plotí(np.arange(len(history dropout.history['acc'])), 
history dropout.history['acc'], label-2'training') 
plt.plot(np.arange(len(history dropout.history['val acc'])), 


history dropout.history['val acc'], label-2'validation') 
plt.title('Accuracy of model with dropouts') 
plt.xlabel('epochs') 

plt.ylabel('accuracy!') 

plt.legend(loc-20) 

plt.show() 


现在 ， 可 以 看 到 ， 由 于 Dropout， 所 建 模型 能 够 更 好 地 泛 化 ， 并 且 不 会 过 拟 合 训练 数 
据 ， 然 而 还 有 改进 的 空间 ， 如 图 12.7 所 示 。 


具有 Dropout 的 模型 精度 


一 一 训练 集 
验证 集 


wp 
图 12.7. 有 Dropout 模型 的 精度 
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12.9 ”通过 数据 增 广 使 模型 更 加 和 鲁 棒 


提高 用 于 计算 机 视觉 任务 网 络 性 能 的 第 用 方法 是 进行 数据 增 广 。 通 过 在 训练 时 间 内 使 


用 数据 增 广 ， 可 以 增加 训练 集 的 大 小 。 因 此 ， 可 以 使 模型 对 训练 数据 中 的 轻微 变化 更 鲁 棒 。 
在 第 7 草 ， 计 算 机 视觉 ” 中， 演示 了 一 些 数 据 增 广 技术 。 在 下 面 的 内 容 中 ， 将 使 用 Keras 和 
它 的 ImageDataGenerator 进行 数据 增 广 。 


如 何 去 做 … 
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1) FIR E B — EESE A T Tia B3] PR RUE : 


from keras.preprocessing.image import ImageDataGenerator 
from keras.models import Sequential 

from keras.layers import Dense, Dropout, Activation, Flatten 
from keras.layers import Conv2D, MaxPooling2D 

from keras.optimizers import Adam 

from keras.callbacks import EarlyStopping, TensorBoard, 
ModelCheckpoint 


from keras.datasets import cifar10 


2.) 加 载 并 对 训练 数据 和 验证 数据 进行 预 处 理 ， 如 下 : 


(X train, y train), (X val, y val) = cifar10.1load data() 


X train = X train.astype('float32')/255. 
X val = X val.astype('float32')/255. 


n classes = 10 
y train = keras.utils.to categorical(í(y train, n, classes) 
y. val = keras.utils.to categorical(y val, n classes) 


3) 接 下 来 ， 按 如 下 步 又 来 定义 模型 结构 : 


model = Sequential() 
model.add(Conv2D(32, (3, 3), padding-^'same', 
input shape-X train.shape[1:])) 
model.add(Activation('relu!)) 
model.add(Conv2D(32, (3, 3))) 
model.add(Activation('relu!)) 
model.add(MaxPooling2D (pool, size-(2, 2))) 
model.add (Dropout (0.25)) 


model.add(Conv2D(64, (3, 3), 
model.add(Activation('relu!')) 
model.add(Conv2D(64, (3, 3))) 
model.add(Activation('relu!')) 
model.add(MaxPooling2D (pool, size-(2, 2))) 
model.add (Dropout (0.25)) 


padding='same')) 
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model.add(Flatten()) 
model.add(Dense(512)) 
model.add(Activation('relu!)) 
model.add (Dropout (0.5)) 
model.add (Dense (n_classes)) 
model.add(Activation('softmax')) 


4) 定义 Adam RKI Zn VE TRUE : 


opt = Adam(l1r-20.0001) 
model.compile(loss-'categorical crossentropy', 
optimizer-opt, metrics-['accuracy!]) 


5) Æ Keras 中 ， 可 以 使 用 ImageDataGenerator 来 轻松 设置 图 像 增 广 ， 如 下 所 示 : 


datagen = ImageDataGenerator( 
rotation range-15, 
width, shift range-0.15, 
height shift range-0.15, 
horizontal flip-True, 
vertical, flip-False) 


datagen.fit(X train) 
6) BE Fo, w yj : 


callbacks = [EarlyStopping(monitor-'val acc', patience-5, 
verbose-2), ModelCheckpoint('checkpoints/weights.iíepoch:02dj- 
'+str(batch size)-*'.hdf5', save best only-True), 
TensorBoard('-/notebooks/logs-lrscheduler', 

write graph-True, write grads-True, write images-True, 
embeddings freq-0, embeddings. layer, names-None, 

embeddings metadata-None) 


] 


7) 开始 训练 模型 : 


batch, size = 128 
n epochs = 1000 
history - model.fit generator(datagen.flow(X train, y train, 
batch, size-batch size), 
steps per epoch-X train.shape[0] // batch, size, 
epochs-epochs, 
validation data-(X val, y val), 
callbacks-callbacks 
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12.10 利用 TTA 来 提高 精度 

虽然 训练 期 间 的 数据 增 广 是 众所周知 的 且 广 泛 使 用 的 技术 ,但 大 多 数 人 对 测试 时 间 增 
广 (TTA) 不 太 了 解 。 在 使 用 TITA 时 ， 可 以 将 训练 模型 用 不 同 的 视图 分 类 ， 例 如 图 像 。 如 
果 翻 转 或 轻微 旋转 图 像 ， 训 练 模型 能 够 做 出 更 准确 的 预测 。 使 用 TTA 可 以 看 作 多 个 模型 的 
集合 。 可 以 选择 平均 概率 或 任何 其 他 综合 技术 来 组 合 每 个 单独 预测 的 结果 。 
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本 半 提 供 了 关于 神经 网 络 内 部 构造 的 一 系列 内 容 ， 这 包括 张 量 分 解 、 权 重 初 始 化 、 拓 
扑 存 储 、 瓶 有 贷 特征 和 相应 的 艇 入 。 

本 曹 将 包含 以 下 内 容 : 

。 用 TensorBoard 可 视 化 训练 过 程 ; 

。 用 TensorBoard 可 视 化 网 络 结构 ; 

。 分 析 网 络 权重 等 ; 

。 冻 结 层 ; 

。 存储 网 络 结构 并 训练 权重 。 


13.1 简介 

在 本 书 中 ,专注 于 为 深度 学 习 提 供 构建 基础 ， 并 为 实际 问题 提供 实战 解决 方案 。 在 本 
章 中 ， 要 关注 这 些 强大 的 深度 学 习 网 络 背后 的 细节 。 例 如 ， 将 演示 如 何 使 用 TensorBoard 分 
析 训 练 后 的 权重 和 可 视 化 训练 过 程 。 


13.2 FH TensorBoard 可 视 化 训练 过 程 


在 前 面 的 内 容 中 ， 演 示 了 如 何 用 Keras 建立 TensorBoard。 但 是 正如 已 经 提 到 的 ， 
TensorBoard 也 可 以 用 于 TensorFlow 和 等。 在 本 节 内 容 中 ， 将 问 读 者 展示 如 何在 分 类 Fashion- 
MNIST 数据 集 时 使 用 TensorBoard 和 TensorFlow。 


如 何 去 做 … 
1) 首先 导入 TensorFlow 并 加 载 一 个 MNIST 数据 集 的 工具 ， 如 下 所 示 : 


import tensorflow as tf 
from tensorflow.examples.tutorials.mnist import input data 


2) 接 下 来 ， 确 定 Fashion-MNIST 数据 集 并 进行 加 载 : 


mnist = input data.read data, sets('Data/fashion', one hot-True) 
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3 ) 为 输入 数据 创建 占 位 符 : 


n classes = 10 
input size - 784 


x — tf.placeholder(tf.float32, shape-[None, input size]) 
= tf.placeholder(tf.float32, shape-[None, n classes]) 


ne 
| 


4) 在 确定 网 络 结构 之 前 ， 定 义 一 些 将 在 模型 中 多 次 使 用 的 函数 。 从 一 个 创建 并 初始 化 
权重 的 图 数 开 始 : 


def weight, variable (shape): 
initial = tf.truncated normal(shape, stddev-0.1) 
return tf.Variable(initial) 


5 ) Ni Er B E —^ | 2S DA BIU PRU : 


def bias, variable (shape): 
initial = tf.constant(0.1, shape-shape) 
return tf.Variable(initial) 


6) 在 网 络 结构 中 ， 使 用 包含 一 个 Max-pooling 层 的 多 个 卷 积 块 . 


def conv2d(x, W): 
return tf.nn.conv2d(x, W, strides-[1, 1, 1, 1], padding^-^'SAME!) 


def max pool 2x2(x): 
return tf.nn.max pool(x, ksize-[1, 2, 2, 1], 
strides-[1, 2, 2, 1], padding='SAME') 


7) 接 下 来 ， 定 义 完 整 的 网 络 结构 。 将 使 用 三 个 卷 积 块 ， 然 后 是 两 个 全 连接 网 络 层 : 


W_conv1 = weight, variable([7, 7, 1, 100]) 


b convi = bias variable([100]) 
x image - tf.reshape(x, [-1,28,28,1]) 
h convi = tf.nn.relu(conv2d(x image, W convi) + b conv1) 


h poolí = max pool. 2x2 (h, conv1) 


W conv2 = weight variable([4, 4, 100, 150]) 

b conv2 = bias variable([150]) 

h convz = Lr.nn.relutconvzd(h pooll, W.conv2) + b oonv2z) 
h pool2 = max pool. 2x2 (h  conv2) 


W conv3 = weight variable([4, 4, 150, 250]) 

b conv3 - bias, variable([250]) 

Hh conv3 = tf.nn.relu(conv2Zd(h.pool2, W conv3) + b conv3) 
h pool3 = max pool, 2x2 (h, conv3) 
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W fcil = weight variable([4 * 4 * 250, 300]) 

b fci = bias variable([300]) 

h pool3 flat = tf.reshape(h pool13, [-1, 4*4*250]) 

h fci = tf.nn.relu(tf.matmul(h pool3 flat, W fc1) + b fc1) 
keep prob = tf.placeholder(tf.float32) 

h fci, drop = tf.nn.dropout (h fci, keep prob) 


W fc2 = weight, variable([300, n classes]) 
b fc2 = bias variable([n classes]) 
y pred = tf.matmul(h fci drop, W fc2) + b fc2 


8) 接 下 来 ， 需 要 按 如 下 步 又 提取 交叉 炳 : 


with tf.name scope('cross entropy'): 
diff = tf.nn.softmax cross entropy with logits(labels-y, 
logits-y. pred) 
with tf.name scope('total'): 
cross entropy = tf.reduce mean (diff) 
tf.summary.scalar('cross, entropy', cross, entropy) 


9 ) 训练 期 间 将 使 用 AdamOptimizer 优化 带 ， 学 习 率 为 0.001 : 


learning rate = 0.001 
train step - 
tf.train.AdamOptimizer(learning rate).minimize(cross, entropy) 


10) 为 了 跟 踊 进 度 ， 需要 提取 精度 ， 如 下 所 未 : 


with tf.name scope('accuracy!): 

correct prediction = tf.equal(tf.argmax(y pred, 1), 
tf.argmax (y, 1)) 

accuracy = tf.reduce mean(tf.cast(correct, prediction, 
tf.float32)) 
tf.summary.scalar('accuracy', accuracy) 


11) 创建 一 个 交互 式 的 TensorFlow 会 话 : 


Sess — tf.InteractiveSession() 


12 ) 为 TensorBoard iX & TensorFlow WIA 2&4 5j qs : 


log dir = 'tensorboard-example' 
merged = tf.summary.merge all() 
train writer = tf.summary.FileWriter(log dir + '/train', 


sess.graph) 
val writer = tf.summary.FileWriter(log dir + '/val') 
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13) 接 下 来 ， 在 开始 训练 之 前 定义 一 些 超 参数 : 


n steps = 1000 
batch size - 128 
dropout = 0.25 
evaluate_every = 10 


14) 最 后 ， 开 始 训练 : 


tf.global variables initializer().run() 
for i in range (n steps): 
x batch, y batch = mnist.train.next batch(batch, size) 


summary, _, train acc = sess.run([merged, train, step, 
accuracy], feed dict-íx: x batch, y: y batch, keep prob: 
dropout}) 


train writer.add summary(summary, i) 
if i $ evaluate every -- 
summary, val acc = sess.run([merged, accuracy], 
feed dict-í(x: mnist.test.images, y: mnist.test.labels, 
keep prob: 1.0}) 
val writer.add summary(summary, i) 
print('Step {:04.0f}: train aoc: {:.4f}; val, ace 
(:.4£)'.format(i, train acc, val acc)) 
train writer.close() 
val writer.close() 


15) 连接 TensorBoard, 1]JF—139rBg2 vii i 15 MRE o ICA. XE RUE 2] — 717 
到 服务 器 的 新 连接 ， 并 使 用 不 同 的 端口 进行 SSH 通道 连接 ， 例 如 使 用 GCP 时 (使 用 自己 的 


设置 符 换 实例 和 名称 ): 


gcloud compute ssh --ssh-flag-"-L 6006:1ocalhost:6006"  --zone 
"instance-zone" "instance-name" 


16) 登录 后 ， 可 以 局 动 TensorBoard 连接 ， 如 下 所 示 : 


tensorboard --logdirz'-/tensorflow-example' 


终 闹 将 输出 一 个 地 址 ， 通 过 这 个 地 址 可 以 连接 TensorBoard， 例 如 http : // instance- 
name : 6006。 在 这 里 的 例子 中 ， 因 为 已 经 启用 了 SSH 通道 ， 所 以 可 以 利用 本 地 浏览 融 并 使 
用 地 址 http : // localhost : 6006 /来 访问 仪表 板 。 在 TensorFlow 仪表 板 中 ， 可 以 跟 踊 模型 的 


进度 。 在 图 13.1 中 ， 可 以 看 到 训练 完成 后 的 输出 。 
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0.000 200.0 400.0 600.0 800.0  1.000k 0.000 200.0 400.0 600.0 800.0 1.000k 


图 13.1 迭代 1000 次 以 后 的 训练 EE ) 和 验证 AE ) 2i 


13.3 用 TensorBoard 可 视 化 网 络 结构 

正如 在 本 书 中 所 展示 的 那样 ， 在 使 用 Keras 框架 时 ， 很 容易 输出 网 络 结构 的 简单 摘要 。 
但 是 使 用 TensorBoard， 可 以 使 用 不 同 的 设置 来 显示 网 络 结构 。 在 图 13.2 中 ， 可 以 看 到 这 样 
一 个 可 视 化 的 例子 。 


TensorBoard SCALARS GRAPHS DISTRIBUTIONS HISTOGRAMS PROJECTOR INACTIVE € © 
Fit to screen Main Graph Auxiliary Nodes 
* Download PNG 
5 ege 
Run train Y (eross.entropy 77 graderes E ea pom y 
0) RK i ma o gradients [Hesam vom 
NS -— - reed a 一 nes 
Session H perite XD 
runs © | (aapa) 一 
m 
Upload Choose File 
"S - 


,BD Trace inputs 


Color (9) structure 


O be 一 — 
© XLA Cluster 
L1 
O Compute time D> 
A Be" 

O Memory — G P. 

O TPU Compatibility > gasens (Varlable 3 j= non 
colors same substructure 

ipe 1 

(umm) unique substructure Oe OO gradients ( Variable.2 ) i 
v Close legend. 


Graph (*= expandable) 


-一 会 Dataflow edge? 
Control dependency edge ? 
^ Reference edge? 


图 13.2 TensorBoard 图 形 可 视 化 示例 


13.4 ”分析 网 络 权重 等 
在 之 前 的 内 容 中 ， 着 重 于 可 视 化 损失 和 度量 。 但 是 使 用 TensorBoard， 还 可 以 跟踪 权重 
变化 过 程 。 人 和 仔细 观察 权重 可 以 帮助 理解 模型 是 如 何 工 作 和 学 习 的 。 
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如 何 去 做 … 
1) 从 导入 TensorFlow 开始 ， 如 下 所 示 : 


import tensorflow as tf 
from tensorflow.examples.tutorials.mnist import input data 


2) 现在 ， 可 以 用 一 行 代码 加 载 Fashion-MNIST 数据 集 : 


mnist = input, data.read data sets('Data/fashion', one hot-True) 


3) 在 继续 之 前 ， 需 要 为 恒 型 设置 占 位 符 : 


n classes = 10 
input size - 784 


x — tf.placeholder(tf.float32, shape-[None, input size]) 
y = tf.placeholder(tf.float32, shape-[None, n classes]) 
keep prob = tf.placeholder(tf.float32) 


4) 定义 四 个 函数 来 帮助 构 建 网 络 结构 : 


def weight, variable (shape): 
initial = tf.truncated normal (shape, stddev=0.1) 
return tf.Variable (initial) 


def bias_variable (shape): 
initial = tf.constant (0.1, shape=shape) 
return tf.Variable (initial) 


def conv2d(x, W): 
return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1], padding='SAME') 


def max pool. 2x2 (x): 
return tf.nn.max pool(x, ksize-[1, 2, 2, 1], 
strides-[1, 2, 2, 1], padding^'SAME!) 


5) 要 将 统计 数据 写 人 TensorBoard, «E Y.—^| XERUXJC Z1 HJ PR: 


def summary. variable (var): 
with tf.name scope('summaries'): 
mean = tf.reduce mean(var) 
tf.summary.scalar('mean', mean) 
with tf.name scope('stdev'): 
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stddev = tf.sqrt(tf.reduce mean(tf.square(var - mean))) 
tf.summary.scalar('stdev', stdaddev) 
tf.summary.scalar('max', tf.reduce max(var)) 
tf.summary.scalar('min', tf.reduce min(var)) 
tf.summary.histogram('histogram', var) 


6) 接 下 来 ， 定 义 网 络 结构 。 对 于 前 两 个 卷 积 块 ， 这 里 想 在 训练 期 间 提取 权重 和 统计 妆 
据 。 操作 如 下 。 


x image - tf.reshape(x, [-1,28,28,1]) 
with tf.name scope('weights!'): 
W convi = weight, variable([7, 7, 1, 100]) 
summary variable(W conv1) 
with tf.name scope('biases'): 
b convi = bias, variable([100]) 
summary variable (b conv1) 


with tf.name scope('Conv1'): 
h convi = tf.nn.relu(conv2d(x image, W convi) + b conv1) 
h poolí = max pool. 2x2 (h, conv1) 
tf.summary.histogram('activations', h, conv1) 
tf.summary.histogram('max pool', h pool1) 


with tf.name scope('weights!): 
W conv2 = weight variable([4, 4, 100, 150]) 
summary variable(W conv2) 
with tf.name scope('biases'): 
b conv2 = bias variable([150]) 
summary variable (b conv2) 


with tf.name scope('Conv2!'): 
h_conv2 tfsnn relu(convad(hl pooli, W convz) + b conva) 
h pool2 = max pool. 2x2 (h, conv2) 
tf.summary.histogram('activations', h, conv2) 
tf.summary.histogram('max pool', h pool2) 


7) 对 于 其 余 网 络 层 ， 不 存储 任何 信息 : 


W conv3 = weight variable([4, 4, 150, 250]) 

b conv3 - bias, variable([250]) 

h conv3 = tf.nn.relu(conv2d(h pool2, W conv3) + b conv3) 
h pool3 = max pool. 2x2 (h conv3) 


W fci = weight variable([4 * 4 * 250, 300]) 
b fci = bias variable([300]) 
h pool3 flat = tf.reshape(h pool3, [-1, 4*4*250]) 


h fci = tf.nn.relu(tf.matmul(h pool3 flat, W fc1) + b fel) 
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h fci, drop = tf.nn.dropout (h fcil, keep prob) 


W fc2 = weight variable([300, n classes]) 
b fc2 = bias variable([n classes]) 
vy pred = tr,matmul(h fci drop, W fc2) + Db fcZ2 


8) 但 是 需要 保存 交叉 精 和 精度 : 


with tf.name scope('cross entropy'): 
diff = tf.nn.softmax cross entropy with logits(labels-y, 
logits-y pred) 
with tf.name scope('total'!'): 
cross entropy = tf.reduce mean (diff) 
tf.summary.scalar('cross entropy', cross entropy) 


with tf.name scope('accuracy!): 


correct prediction = tf.equal(tf.argmax(y pred, 1), 
tf.argmax(y, 1)) 

accuracy = tf.reduce mean(tf.cast(correct prediction, 
tf.float32)) 


tf.summary.scalar('accuracy', accuracy) 


9) 设置 学 习 率 并 定义 优化 天 : 


learning rate = 0.001 
train step - 
tf.train.AdamOptimizer(learning rate).minimize(cross entropy) 


10) £&vr— T Wi, JPBISE XCITIRE d : 


Sess = tf.lInteractiveSession() 

log dir = 'tensorboard-example-weights' 

merged = tf.summary.merge all() 

train writer = tf.summary.FileWriter(log dir + '/train', 
sess.graph) 

val writer = tf.summary.FileWriter(log dir + '/val') 


11) 接 下 来 ， 定 义 超 参数 : 


n steps - 1000 

batch size - 128 

dropout = 0.25 

evaluate every = 10 

n val steps = mnist.test.images.shape[0] // batch size 
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12 ) 开始 训练 : 


tf.global variables initializer().run() 
for i in range (n steps): 
x batch, y batch = mnist.train.next batch (batch size) 
summary,  , train acc = sess.run([merged, train step, 
accuracy], feed dict-í(x: x batch, y: y batch, 
keep prob: dropout]) 
train writer.add summary(summary, i) 
if i $ evaluate every -- 
val accs = [|] 
tor J arn rengeilu-vel steps) 
x batch, y batch = mnist.test.next_ batch (batch_ size) 
summary, val acc = sess.run([merged, accuracy], 
feed dict-í(x: x batch, y: y batch, keep prob: 1.0]) 
val writer.add summary(summary, i) 
val accs.append(val, acc) 
print('Step {:04.0f}: train aco: {:.4f}; val acc 
(:.4f)'.format(i, train acc, sum(val accs)/len(val accs))) 
train writer.close() 
val writer.close() 


有 关 如 何 连 接 TensorBoard 的 更 多 信息 ， 请 参阅 使 用 TensorBoard 进行 可 视 化 训练 相关 


o 图 13.3 显示 了 TensorBoard 中 的 输出 示例 。 


Conv1/activations ‘train Conv1/max_pool drain Conv2/activations drain Conv2/max. pool 


| 


biases/summaries_1/histogram train 


0.080 


200 


400 
0.090 0.100 0.110 0.120 0.080 0.090 0.100 0.110 0.120 


图 13.3 在 TensorBoard "P n] gi m Rs er 


站 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 


这 些 关于 网 络 权 重 的 统计 数据 可 能 非常 有 趣 ， 有 助 于 理解 发 生 了 什么 。 


层 存 在 问题 的 潜在 原因 。 


如 果 读 


这 
者 认为 模型 没有 得 到 正确 的 训练 ， 这 些 可 视 化 可 以 让 读者 深入 了 解 其 中 某 网 络 


和 二 i i ed i i i se ,i A et i i i i i i i ,i se i id 过 ,i i i i i 过 i et i i i td tt. a i et i rd iit ei, i i i i ,et i i i i i i i i i td die, ,it i si i dt, i i i i 
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13.5 KAA 


有 时 《〈 例 如 ， 在 使 用 预 训练 网 络 时 )， 乔 望 冻结 一 些 层 。 可 以 做 到 的 是 明确 一 些 网 络 层 
(大 多 数 情 况 下 是 徘 前 的 几 层 ， 也 称 为 网 络 的 底层 ) 作为 特征 提取 具有 一 定 的 价值 。 在 下 面 
的 内 容 中 ， 将 演示 如 何在 训练 之 后 冻结 网 络 的 一 部 分 ， 并 且 只 训练 剩余 的 网 络 子 集 。 


如 何 去 做 … 
1 ) 首先 ， 加 载 所 用 函数 库 ， 如 下 : 


import tensorflow as tf 
from tensorflow.examples.tutorials.mnist import input data 


2) 在 TensorFlow 中 ， 加 载 MNIST 数据 集 非 常 简 单 : 


mnist = input data.read data sets('Data/mnist', one hot-True) 


3) B POE, 是 义 让 位 侍 ， 


n classes - 10 
input size - 784 


x = tf.placeholder(tf.float32, shape-[None, input, size]) 
y = tf.placeholder(tf.float32, shape-[None, n, classes]) 
keep prob = tf.placeholder (tf.float32) 


4) ERR PE T —d2620 92 38 HAE HRS PR : 


def weight variable(shape, name-'undefined'): 
initial = tf.truncated normal (shape, stddev-0.1) 
return tf.Variable(initial, name-name) 


def bias variable(shape, name-'undefined!): 
initial - tf.constant(0.1, shape-shape) 
return tf.Variable(initial, name-name) 
def conv2d(x, W): 
return tf.nn.conv2d(x, W, strides-[1, 1, 1, 1], padding^-^'SAME!) 


def max pool. 2x2 (x): 
return tf.nn.max pool(x, ksize-[1, 2, 2, 1], 
strides-[1, 2, 2, 1], padding^'SAME!) 


5) 现在 定义 网 络 结构 : 
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x image = tf.reshape(x, [-1,28,28,1]) 
W convi = weight variable([7, 7, 1, 100], name-'1st layer weights") 
b convi = bias variable([100], name-2'1st layer bias") 
h conví1 = tf.nn.relu(conv2d(x image, W conv1) + b conv1) 
h poolí1 = max pool 2x2 (h conv1) 
W conv2 = weight, variable([4, 4, 100, 150]) 
b conv2 = bias variable([150]) 
h convz = tr,nn.relu(convesd(h.poolli, W-convZz) + b convz) 
h pool2 = max pool. 2x2 (h conv2) 
W conv3 = weight, variable([4, 4, 150, 250]) 
b conv3 = bias variable([250]) 
h conv3 = tf.nn.relu(conv2d(h, pool2, W conv3) + b conv3) 
h pool3 = max pool. 2x2 (h, conv3) 
W fci = weight variable([4 * 4 * 250, 300]) 
b fci = bias variable([300]) 
h pool3 flat = tf.reshape(h pool13, [-1, 4*4*250]) 
h fol = tf.nn.relu(tf.matmul(h pool3 flat, W fcl) + b fol) 
h fci drop = tf.nn.dropout(h fcí1, keep prob) 
W fc2 = weight, variable([300, n classes]) 
b fc2 = bias, variable([n. classes]) 
y pred = tf.matmul(h, fci drop, W fc2) + b fc2 
diff = tf.nn.softmax cross entropy with logits(labels-y, 
logits-y. pred) 
cross entropy = tf.reduce mean(diff) 
correct prediction = tf.equal(tf.argmax(y pred, 1), tf.argmax(y, 
1)) 
accuracy = tf.reduce mean(tf.cast(correct prediction, tf.float32)) 
6) 显示 输出 可 训练 变量 的 名 字 : 
trainable vars = tf.trainable Varlables () 
for i in range(len(trainable, vars)): 
print (trainable vars[il) 
7) 定义 优化 硕 时 ， 可 以 设置 在 训练 时 应 该 包含 哪些 变量 : 
vars train = [var for var in trainable vars if '1st_ ' in var.name] 


learning rate - 0.001 

train, step = 

tf.train.AdamOptimizer(learning rate).minimize(cross entropy, 
var list-vars train) 
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8) 接 下 来 ， 设 置 想 要 使 用 的 超 参数 并 开始 训练 : 


n steps - 10 

batch, size = 128 
dropout = 0.25 
evaluate every - 10 


Sess = tf.InteractiveSession() 
tf.global variables initializer().run() 
for i in range (n, steps): 
x batch, y batch = mnist.train.next, batch (batch size) 
., train acc = sess.run([train step, accuracy], feed dict-íx: 
x batch, y: y batch, keep prob: dropout]j) 
print('Step {04.0£f}: train acc: .4f}' .format (li, train acc)) 


13.6 ”存储 网 络 结构 并 训练 权重 
在 大 多 数 深度 学 习 框 架 中 ， 存 储 网 络 结构 和 训练 权重 是 直接 的 。 因 为 这 可 能 非常 重要 ， 
所 以 将 演示 如 何 使 用 TensorFlow 在 下 面 的 内 容 中 存储 模型 。 


如 何 去 做 … 
1 ) 从 导入 函数 库 文件 开始 : 


import tensorflow as tf 
from tensorflow.examples.tutorials.mnist import input data 


2) 接 下 来 ， 加 载 MNIST 数据 : 


mnist = input, data.read data sets('Data/mnist', one hot-True) 


3 ) 定义 TensorFlow 占 位 人 符 ， 如 下 : 


n classes = 10 
input, size - 784 


x — tf.placeholder(tf.float32, shape-[None, input size]) 


y = tf.placeholder(tf.float32, shape-[None, n, classes]) 
keep prob = tf.placeholder(tf.float32) 
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4) 为 方便 起 见 ， 创 建 函 数 来 建立 深度 学 习 网 络 : 


def weight, variable (shape): 
initial = tf.truncated normal (shape, stddev=0.1) 
return tf.Variable (initial) 


def bias_variable (shape): 
initial = tf.constant(0.1, shape=shape) 
return tf.Variable (initial) 


def conv2d(x, W): 
return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1], padding='SAME') 


def max pool. 2x2 (x): 
return tf.nn.max pool(x, ksize-[1, 2, 2, 1], 
strides-[1, 2, 2, 1], padding^'SAME!) 


5) 现在 可 以 定义 完整 的 网 络 结构 : 


x image = tf.reshape(x, [-1,28,28,1]) 


W convi = weight variable([7, 7, 1, 100]) 

b conví = bias  variable([100]) 

h convi = tf.nn.relu(conv2d(x image, W conví1) + b conv1) 
h poolí = max pool. 2x2 (h, conv1) 


W conv2 = weight variable([4, 4, 100, 150]) 

b conv2 = bias variable([150]) 

h conv2 = tf.nn.relu(conv2d(h, pooli; W conv2) + b conv2) 
h pool2 = max pool. 2x2 (h  conv2) 


W conv3 = weight variable([4, 4, 150, 250]) 

b conv3 = bias, variable([250]) 

h conv3 = tf.nn.relu(conv2d(h, pool2, W conv3) + b conv3) 
h pool3 = max pool. 2x2 (h conv3) 


W fci = weight variable([4 * 4 * 250, 300]) 

b fci = bias, variable([300]) 

h pool3 flat = tf.reshape(h pool13, [-1, 4*4*250]) 

Dh. rol e prnn.relu(ttr.matmul(h pools ilat; W fol) + b-fel) 
h fcil drop = tf.nn.dropout(h fci, keep prob) 


W fc2 = weight variable([300, n classes]) 


b fc2 = bias variable([n classes]) 
y pred = tf.matmul(h fel drop, W fc2) + b fc2 


6) 需要 以 下 定义 来 训练 所 建 网 络 并 确定 性 能 : 
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diff = tf.nn.softmax cross entropy with logits(labels-y, 
logits-y pred) 


cross entropy = tf.reduce mean (diff) 

correct prediction = tf.equal(tf.argmax(y pred, 1), tf.argmax(y, 

工 ) ) 

accuracy = tf.reduce mean(tf.cast(correct prediction, tf.float32)) 


7) 接 下 来 定义 优化 此 : 


learning rate = 0.001 
train step - 
tf.train.AdamOptimizer(learning rate).minimize(cross entropy) 


8) 现在 可 以 定义 超 参数 : 


n_steps = 25 

batch size = 32 

dropout = 0.25 

evaluate every = 10 

n val steps = mnist.test.images.shape[0] // batch size 


9) 为 了 在 训练 中 保存 模型 ， 需 要 创建 一 个 TensorFlow 存 人 变量 。 因 为 不 想 存 储 太 多 
的 模型 ， 所 以 将 变量 max to keep 设置 为 3 : 


Saver = tf.train.Saver (max to keep-5) 
save dir = 'checkpoints/' 


10) 现在 可 以 创建 会 话 并 开始 训练 。 根 据 验证 精度 存储 最 佳 模 型 的 权重 : 


Sess — tf.InteractiveSession() 
tf.global variables initializer().run() 
best val = 0.0 
for i in range (n, steps): 
x batch, y batch = mnist.train.next batch(batch size) 
., train acc = sess.run([train step, accuracy], feed dict-íx: 
x batch, y: y batch, keep prob: dropout];j) 
if i $ evaluate every -- 
val accs = [| 
for j in range (n val steps): 
x batch, y batch = mnist.test.next batch(batch, size) 
val acc = sess.run(accuracy, feed dict-íx: x batch, y: 
y. batch, keep prob: 1.0}) 
val accs.append(val. acc) 
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print('Step {1:040}; Ltrain.acc: {1:4}; val acc: 

{:.4f}' .format (i, train acc, sum(val accs)/len(val accs))) 

if val, acc » best val: 
Saver.save(sess, save dir-t'best-model', global step-i) 
print('Model saved!) 


best val = val acc 
saver.save(sess, save dir-*'last-model')) 


11) 现在 ， 如 果 想 使 用 已 存储 模型 的 权重 ， 可 以 从 一 个 检查 点 进行 加 载 : 


with tf.Session() as sess: 
new saver = tf.train.import meta graph(í(save dir-*'last- 
model.meta') 
new saver.restore(sess, 


for i in range(35): 
x batch, y batch = mnist.train.next batch (batch, size) 


train acc = sess.run([train step, accuracy], 
x batch, y: y batch, keep prob: dropout]) 


save dir-t'last-model') 


—7 
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本 章 提供 了 基于 流行 深度 学 习 模 型 的 一 系列 内 容 ， 如 VGG-16 和 Inception V4 : 
。 使 用 GoogLeNet / Inception 进行 大 规模 视觉 识别 ; 

。 用 ResNet 提取 洽 颁 特征 ，; 

。 对 新 类 别 使 用 预 训练 的 VGG 模型 ; 

。 用 Xception 细 调 。 


14.1 简介 

在 过 去 的 几 年 里 ， 许 多 改变 游戏 规则 的 网 络 结构 已 提出 并 公开 发 布 ， 它 们 中 的 大 多 
数 是 开源 代码 或 公布 权重 。 如 果 后 者 不 是 这 种 情况 ， 其 他 人 则 执行 网 络 结构 并 分 享 权 重 。 
因此 ， 许 多 深度 学 习 框 架 可 以 直接 访问 流行 的 模型 及 其 权重 。 在 本 章 中 ， 将 演示 如 何 利 
用 这 些 预 训练 的 权重 。 这 些 模型 中 的 大 多 数 已 经 在 比赛 中 使 用 的 大 型 图 像 数据 集 ( 例如 
ImageNet 数据 集 ) 上 进行 了 训练 。 该 数据 集 已 发 布 ， 且 用 于 ImageNet 大 规模 视觉 识别 挑 
战 赛 (ILSVRC )。 通 过 利用 这 些 预 训 练 的 权重 ， 可 以 获得 良好 的 结果 并 减少 训练 时 间 。 


14.2 ”使 用 GoogLeNet/Inception 进行 大 规模 视觉 识别 

在 2014 年 ，Google 公司 发 布 了 Going Deeper with Convolutions ( 越 来 越 深 的 卷 积 网 
络 ) (https : //arxiv.org/abs/1409.4842 ) 论文 ， 介 绍 了 GoogLeNet 架构 。 随 后 ， 更 新 的 版 本 
( 2015 年 https : //arxiv.org/abs/1512.00567 ) 以 Inception 的 名 义 发 布 。 在 这 些 GoogLeNet / 
Inception 模型 中 ， 在 堆 登 并 输入 到 下 一 层 之 前 ， 多 个 养 积 层 可 并 行 应 用 。 该 网 络 结构 的 一 
大 优点 是 计算 成 本 较 低 ， 训 练 权重 的 文件 要 小 得 多 。 在 本 市 内 容 中 ， 将 演示 如 何在 Keras 中 
加 载 InceptionV3 权重 并 应 用 模型 对 图 像 进行 分 类 。 


如 何 去 做 … 
1 ) Keras 有 一 些 使 用 预 训 练 模型 的 好 工具 。 从 导入 图 数 库 和 工具 开始 ， 如 下 所 示 : 


import numpy as np 


from keras.applications.inception v3 import InceptionV3 
from keras.applications import imagenet utils 

from keras.preprocessing.image import load img 

from keras.preprocessing.image import img to array 
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2) 接 下 来 ， 加 载 InceptionV3 模型 ， 如 下 : 


pretrained model = InceptionV3 
model = pretrained model (weights-"imagenet") 


3 ) InceptionV3 模型 是 在 ImageNet 数据 集 上 进行 训练 的 ， 因 此 如 有 果 想 要 提供 新 的 图 像 
给 模型 ， 应 该 使 用 相同 的 输入 规模 : 


input.dim = (299, 299) 

4) 使 用 Keras 中 包含 的 默认 ImageNet 预 处 理 技术 : 
preprocess - imagenet utils.preprocess input 
5) 下 一 步 ， 加 载 一 个 示例 图 像 并 对 其 进行 预 处 理 : 


image = load img('Data/dog example.jpg', target size-input dim) 


image = img to array(image) 
image - image.reshape((1, *image.shape)) 
image = preprocess (image) 


6) 经 过 这 些 简单 的 步 又， 准备 好 预测 示例 图 像 的 类 别 ， 如 下 所 示 : 

preds = model.predict (image) 

7) 为 了 预测 解码 值 ， 可 以 使 用 Keras imagenet utils.decode predictions 预测 方法 : 
preds decoded = imagenet utils.decode predictions (preds) 

8) 最 后 ， 呈 现 这 些 值 : 

preds decoded 


9) 输出 应 该 如 图 14.1 所 示 。 
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In [6]: preds decoded 


Out[6]: [[('n02109961', 'Eskimo dog', 0.59557849), 
'n02110185', 'Siberian husky', 0.40070605), 
'n02110063', 'malamute', 0.0032684309), 
'n02091467', 'Norwegian elkhound', 0.00015924724), 
'n03218198', 'dogsled', 9.0920155e-05)]] 


图 14.1 示例 图 像 上 的 VGG16 的 预测 和 概率 


~ 


用 16 行 代码 检索 任意 图 像 上 的 预测 是 超 乎 寻常 的 。 但 是 ， 只 有 当日 标 类 包含 在 原始 
ImageNet 数据 集 (1000 个 类 ) 中 时 ， 才 能 使 用 此 模型 。 


14.3 ”用 ResNet 提取 瓶颈 特征 

ResNet 架构 于 2015 年 在 Deep Residual Learning for Image Recognition ( 图 像 识 别 的 
深度 残 差 学 习 ，http://arxiv.org/abs/1512.03385 ) 论文 中 进行 了 介绍 。ResNet 与 VGG 有 不 
同 的 网 络 结构 ， 它 由 堆 半 在 一 起 的 人 微 架 构 组 成 。ResNet 在 2015 年 顾 得 了 ILSVRC， 并 在 
ImageNet 数据 集 上 超越 了 人 类 的 表现 。 在 下 面 的 内 容 中 ， 将 演示 如 何 利 用 ResNet50 权重 来 
提取 瓶 祷 特征 。 


如 何 去 做 … 
1) 首先 导入 所 用 的 Keras E: 


from keras.models import Model 
from keras.applications.resnet50 import ResNet50 


from keras.applications.resnet50 import preprocess, input 
from keras.preprocessing.image import load img 


from keras.preprocessing.image import img to array 
from keras.applications import imagenet utils 


2) 接 下 来 ， 加 载 ImageNet 权重 的 ResNet50 模型 . 


resnet model = ResNetb50(weights-'imagenet') 


3) 对 于 这 个 例子 ， 将 在 ResNet 实现 中 提取 最 终 的 平均 池 化 层 。 这 个 层 叫 做 avg_ 
pool。 如 果 想 从 男 一 层 提 取 特 征 ， 可 以 在 https : //github.com/fchollet/keras/blob/make/keras/ 
applications/resc50.py 查找 ResNet50 的 Keras 实现 : 


model = Model(inputs-resnet, model.input, 
outputs-resnet model.get layer('avg pool').output) 


4 ) 需要 确保 想 要 测试 的 例子 的 输入 规模 是 224 x 224， 并 且 将 默认 的 预 处 理 技术 应 用 于 
ImageNet : 
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(224, 224) 


image = load img('Data/dog example.jpg', target size-input dim) 
image - img to array(image) 

image = image.reshape((1, *image.shape)) 

image = preprocess input (image) 


5) 提取 示例 图 像 的 特征 : 


avg pool features = model .predict (image) 


6) 使 用 此 模型 提取 的 特征 可 用 于 堆 车 。 
练 Xgboost 模型 以 进行 最 终 分 类 。 


例如 ， 可 以 在 这 些 特征 (和 其 他 特征 ) 之 上 训 


14.4 ”对 新 类 别 使 用 预 训练 的 VGG 模型 

2014 年 公开 发 表 了 论文 Very Deep Convolutional Networks for Large-Scale Image 
Recognition 〈 用 于 大 规模 图 像 识 别 的 超 深度 卷 积 网 络 ，https : //arxiv.org/abs/1409.1556 )。 那 
时 ，VGG16 和 VGG19 这 两 个 模型 都 被 认为 是 超 深 度 结构 ， 分 别 有 16 层 和 19 层 。 除 了 输 
入 和 输出 层 以 外 ， 还 包括 权重 以 及 一 些 最 大 池 化 层 。VGG 的 网 络 结构 将 多 个 3x3 的 卷 积 
层 车 加 在 一 起 。VGG16 网 络 结构 总 共有 13 个 卷 积 层 和 3 个 全 连接 网 络 层 。VGG19 变 体 有 
16 个 卷 积 层 和 相同 的 3 个 全 连接 网 络 层 。 在 下 面 的 内 容 中 ， 将 使 用 VGG16 ARME, 
并 在 其 上 次 加 目 己 的 网 络 层 。 将 旋 结 其 原始 模型 权重 ， 只 训练 项 层 。 


如 何 去 做 … 
1 ) 首先 导入 所 用 函数 库 ， 如 下 所 示 : 


import numpy as np 
import matplotlib.pyplot as plt 


keras 
keras 


from 
from 


.models import Model 
.applications.vgg16 import VGG16 


from 
from 


from 
from 
from 


keras. 


keras 


keras 
keras 
keras 


layers import Dense, GlobalAveragePooling2D 
.optimizers import Adam 


.applications import imagenet utils 
„Utils import sp ütils 
„sCåällbacka import EarlyStopping 


2) 在 这 个 方案 中 ， 将 使 用 Keras 的 CIFARIO 数据 集 : 


from keras.datasets import cifar10 
(X Lrain; 


y train), (X test, y test) = cifarí0.1load data() 
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3 ) 在 将 数据 导入 模型 之 前 ， 需 要 对 数据 进行 预 处 理 : 


n classes = len(np.unique(y train)) 
y train = np utils.to categorical(í(y train, n classes) 
y test = np utils.to categorical(y test, n classes) 


X train = X train.astype('float32')/255. 
X test = X test.astype('float32')/255. 


4) 将 使 用 VGG16 模型 并 加 载 没 有 顶层 神经 元 密集 层 的 权重 : 


vgg model = VGG16(weights-'imagenet', include top-False) 


5) XT Keras 的 好 处 是 ， 当 第 一 次 使 用 权重 时 ， 权 重 将 上 自动 下 载 ， 如 图 14.2 所 示 。 


In [*]: pretrained model = VGG16 
model = pretrained model(weights-"imagenet") 


Downloading data from https://github.com/fchollet/deep-learning-models/releases/download/v0.1/vggl6 weights tf dim or 
dering tf kernels.h5 
155992064/553467096 [-9-22-22--2».......... e.c een nn ] - ETA: 23s 


图 14.2 Keras 自动 下 载 权重 


6) 在 这 个 VGG16 模型 之 上 ， 将 添加 一 个 神经 元 密集 层 和 一 个 输出 层 : 


x — vgg model.output 

x = GlobalAveragePooling2D() (x) 

x = Dense(512, activation-^'relu') (x) 

out = Dense(10, activation-^'softmax') (x) 


7) 将 这 两 个 模型 组 合 ， 如 下 所 示 : 
model = Model(inputs-vgg model.input, outputs-out) 


8) 可 以 用 下 面 的 代码 冻结 VGG16 模型 的 权重 : 


for layer in vgg model.layers: 
layer.trainable = False 


9) 接 下 来 ， 用 Adam 优化 带 编 详 模型 并 输出 模型 的 摘要 : 


opt = Adam() 

model.compile(optimizer-opt, loss-'categorical crossentropy', 
metrics-['accuracy!]) 

model.summary() 
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10) 从 摘要 中 可 以 看 出 ， 所 建 模型 总 共有 超过 1500 万 个 参数 。 人 然而 通过 冻结 VGG16 


最 终 得 到 535562 个 可 训练 参数 。 
11) 定义 一 个 早 停 方法 的 回调 函数 ， 以 防止 过 拟 合 发 生 : 


callbacks = [EarlyStopping(monitor-'val acc', patience-5, 
verbose-0)] 


12) 现在 准备 训练 所 建 的 模型 : 


n_epochs = 50 

batch, size = 512 

history - model.fit(X train, y train, epochs-n, epochs, 
batch, size-batch, size, validation split-0.2, verbose-1, 
callbacks-callbacks) 


13 ) 绘制 训练 精度 和 验证 精度 曲线 : 


plt.plot(np.arange(len(history.history['acc'])), 
history.history['acc'], label-'training!') 
plt.plotí(np.arange(len(history.history['val, acc'])), 


history.history['val acc'], label-2'validation') 
plt.title('Accuracy') 

plt.xlabel('batches') 

plt.vlabel('accuracy t) 

plt.legend(loc-20) 

plt.show() 


14) 从 图 14.3 可 以 看 出 ， 模 型 的 最 终 验 证 精度 在 6096753 。 


精度 


一 一 训练 集 
验证 集 


0.0 2.5 5.0 75 | 100 12.5 150 — 17.5 
批 次 


K| 14.3 使 用 VGG16 网 络 权重 后 的 训练 结 
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14.5 FH Xception #45 

Xception 网 络 由 Keras 的 创建 者 François Chollet 在 其 论文 “Xception : 具有 深度 可 分 离 卷 
积 的 次 度 学 习 ” 中 提出 并 加 以 实现 。 原 文 参见 “Xception: Deep Learning with Depthwise Separable 
Convolutions" ( https : //arxiv.org/abs/1610.02357 ) 中 设计 制作 。Xception 是 Inception 架构 的 扩展 ， 
其 中 Inception 模块 被 次 度 可 分 离 的 卷 积 代 蔡 。 在 之 前 的 内 容 中 ， 只 关注 顶层 的 训练 ， 同 时 保 
持原 始 权 重 在 训练 期 间 冻 结 。 但 也 可 以 选择 以 较 小 的 学 习 率 来 训练 所 有 权重 ， 这 就 是 所 谓 的 微 
调 。 这 种 技术 可 以 通过 去 除 原始 网 络 中 一 些 偏 大 权重 来 使 模型 的 性 能 有 小 幅 的 提升 。 


如 何 去 做 … 
1 ) 首先 ， 从 导入 所 有 需要 的 函数 库 开始 ， 如 下 所 示 : 


import numpy as np 

from keras.models import Model 

from keras.applications import Xception 

from keras.layers import Dense, GlobalAveragePooling2D 
from keras.optimizers import Adam 


from keras.applications import imagenet utils 


from keras.utils import np utils 
from keras.callbacks import EarlyStopping 


2) 接 下 来 ， 加 载 数 据 集 : 


from keras.datasets import cifar10 
(X train, y train), (X test, y test) = cifarí0.load data() 


3) 在 将 数据 提供 给 模型 之 前 ， 逢 要 对 数据 进行 预 处 理 : 


n classes = len(np.unique(y train)) 
y. train = np utils.to categorical(y train, n classes) 
y test - np utils.to categorical(y test, n classes) 


X train = X train.astype('float32')/255. 
X test = X test.astype('float32')/255. 


4) ME Xception 模型 而 不 使 用 Keras 全 连接 顶层 : 


xception model = Xception(weights-'imagenet', include top-False) 


5) È TÆ, EXIME] Xception 模型 的 网 络 层 : 
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= xception model.output 

x — GlobalAveragePooling2D() (x) 

x = Dense(512, activation-^'relu') (x) 

out = Dense(10, activation-^'softmax') (x) 


6) 将 其 组 合成 一 个 模型 : 


model = Model(inputs-xception model.input, outputs-out) 


7) WAWA Xception 模型 的 原始 权重 处 于 浆 结 状 态 。 在 微调 之 击 站 和 完 训 练 项 层 : 


for layer in xception, model.layers: 
layer.trainable = False 


8) Jen] LAE SAES AR FERRUM : 


opt = Adam() 

model.compile(optimizer-opt, loss-'categorical crossentropy', 
metrics-['accuracy!']) 

model.summary () 


9) 为 了 防止 过 拟 合 ， 使 用 早 停 方 法 : 


callbacks = [EarlyStopping (monitor-'val, acc', patience-5, 
verbose-0)] 


10 ) 开始 训练 项 层 : 


n epochs = 100 

batch size = 512 

history = model.fit(X train, y train, epochs-n epochs, 
batch size-batch, size, validation split-20.2, verbose-1, 
callbacks-callbacks) 


11) 之 后 ， 可 以 开始 人 微调。 首先 ， 需要 知道 想 要 使 用 哪个 网 络 层 进行 微调 ， 所 以 按 如 
下 步 又 罗列 网 络 层 名 称 : 


for i, layer in enumerate (model.layers): 
print (i, layer.name) 


12 ) 调整 最 后 两 个 Xception 块 ， 从 第 115 ERFIR: 
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for layer in model.layers[:115]: 


layer.trainable = False 
for layer in model.layers[115:]: 
layer.trainable = True 


13) 之 后 ， 训 练 所 建 模 型 来 训练 其 他 网 络 层 。 学 习 率 在 这 里 是 非 第 重要 的 ， 当 学 习 率 
太 大 时 ， 完 全 忽略 了 预 训练 的 权重 。 如 采 原 来 的 权重 不 适合 当前 的 任务 ， 就 很 有 必要 对 权 
重 进 行 预 训练 : 


opt finetune = Adam() 
model.compile(optimizer-opt, finetune, 
loss-'categorical crossentropy', metrics-['accuracy']) 
model.summary () 


14) 最 后 ， 可 以 开始 微调 所 建 模型 : 


history finetune = model.fit(X train, y train, epochs-n epochs, 
batch size-batch size, validation split-0.2, verbose-1, 
callbacks-callbacks) 


站 一 一人 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 


在 本 章 中 ， 演 示 了 如 何 利 用 预 训 练 的 深度 学 习 模 型 。 这 些 预 训 练 模 型 的 权重 可 | 
以 用 于 类 似 的 图 像 分 类 任务 或 少数 相关 的 任务 。 | 


ree n————————— ——————————————————————————————À——————————————— 1 
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[2 基于 H20O 的 机 器 学 习 实 用 方法 : 
一 种 强大 的 可 扩展 的 人 工 智能 和 深度 学 习 技术 


obiter 


$ 


Up 
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本 书 针 对 所 提出 的 问题 提供 技术 解决 方案 ， 并 提供 对 这 些 解决 方案 的 详细 解释 。 此 外 ， 
还 讨论 了 使 用 TensorFlow、PyTorch、Keras 和 CNTK 等 流行 开源 框架 针对 实际 问题 解决 方案 相 
应 的 优 缺 点 。 本 书 也 介绍 了 人 工 神 经 网 络 基本 概念 及 其 相关 技术 ， 包 括 经 典 的 网 络 拓扑 等 。 
本 书 主要 目的 是 为 Python 程 序 员 提 供 较 为 详细 的 实战 方案 ， 以 便 将 深度 学 习 应 用 于 常见 和 不 
常见 实际 问题 场景 

本 书包 括 14 章 : ORES, GPU 计算 、 云 解决 方案 和 深度 学 习 框 架 ; @@ 前 馈 神经 网 络 ， 
@@ 卷 积 神经 网 络 ; @ 递归 神经 网 络 ;@@ 强化 学 习 ; @@ 生成 对 抗 网 络 ; 0 i| SEU: 
6 自然 语言 处 理 ，@@ 语音 识别 和 视频 分 析 ; 侠 时 间 序 列 和 结构 化 数据 ; 全 游戏 智能 体 和 机 如 人 ， 
O 超 参 数 选择 、 调 优 和 神经 网 络 学 习 ， 便 网 络 内 部 构造 , O 预 训 练 模型 。 


© 提供 训练 不 同 神 2 xz 网 络 模型 并 调整 模型 以 期 获得 最 佳 性 能 的 实 成 方案 
& 使 用 诸如 TensorFlow、Caffe、Keras、Theano 的 Python 框架 进行 自然 语言 处 理 、 计 算 机 视觉 识别 等 ; 
& Python 深度 学 习 中 的 常见 以 及 不 常见 问题 的 解决 指南 。 


(阅读 本 书 将 合 学 到 的 内 容 ) 


TP 下 不 同 的 人 人工 神 2 对 网 络 模 型 ， 
四 选择 诸如 PyTorch、TensorFlow、MXNet 和 Keras 等 最 优 的 Python 开 源 框架 来 进行 深度 学 习 ，; 
o» 应 用 神经 网 络 内 部 细节 相关 的 提示 和 技巧 ， 以 提高 学 习 成 效 ; 
e» 巩固 机 器 学 习 原 理 并 将 其 应 用 于 深度 学 习 领 域 ; 
» 重用 Python 代码 段 并 将 其 应 用 于 解决 日 党 问题 
o» 评估 每 个 解决 方案 的 成 本 /收益 和 性 能 影响 。 
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